近日,由中国计算机学会、中国中文信息学会和百度公司联合举办的2021语言与智能技术竞赛落下帷幕。金融壹账通人工智能研究院Gamma Lab登顶机器阅读理解任务榜单,在与思必驰、汉仪字库、华中科技大学等单位竞赛中,取得*的好成绩。据悉,该项赛事自2019年起至今已成功举办三届,是国内自然语言处理领域最权威的竞赛之一,在业内具有广泛影响力。
金融壹账通人工智能研究院Gamma Lab凭借雄厚的技术实力、丰富的金融行业应用场景和高速的成长性等优势,获国际权威财经媒体《财资》(The Asset)颁发的年度金融科技团队奖。此外,Gamma Lab信息抽取技术、微表情识别、面部动作单元识别、机器阅读理解、自然语言生成、情绪识别、深度学习模型推理性能等技术均取得过世界*的好成绩。此次获奖也是继英文机器阅读理解(斯坦福机器阅读理解竞赛SQuAD)之后,Gamma Lab在中文机器阅读理解方面技术积累的又一体现。
作为自然语言处理领域*挑战的任务之一,机器阅读理解不同于传统的问答系统,无法通过预设的规则与知识库直接反馈提问结果,而是需要从文章上下文中寻找线索,利用一定的语义信息与推理能力定位准确答案,同时需要考虑无答案、问题或原文表达差异、依赖先验知识等问题。
金融壹账通Gamma Lab相关负责人表示,当前的机器阅读理解数据集大多都只采用单一的指标来评测模型的好坏,缺乏对模型语言理解能力的细粒度、多维度评测,导致模型的具体缺陷很难被发现和改进。为了解决这个问题,主办方建立了细粒度的、多维度的评测数据集,推动阅读理解评测进入“精细化“时代。同时,主办方提供大规模中文数据集,其中样本均来自于实际应用场景,难度大,考察点丰富,覆盖了真实应用中诸多难以解决的问题。
此次竞赛具备两大难点:一是细粒度测评指标:相比以往比赛,从词汇理解(vocab)、短语理解(phrase)、语义角色理解(semantic role)、容错性(fault-tolerant)、推理(reasoning)5类12方面考察模型能力,对模型的推理性、泛化性、稳定性及知识融入是严峻挑战;二是无答案样本:数据集中含有一定规模无答案样本,此类样本的上下文描述看似与提问意图接近、实际却找不到正确答案,不仅影响数据平衡,还对模型有干扰作用。
针对以上难点,Gamma Lab应用了行为型微调(Behavioural Fine-tuning)、多模型集成等技术策略,从而从竞赛中脱颖而出,取得了*的好成绩。
除了不断精进自身的科技能力外,Gamma Lab一直积极将基于阅读理解的技术赋能金融业务,为智能审单、股类承做、坐席质检、政策查询等业务提供支持。以智能审单技术为例,对一笔企业营收账款查询,传统流程需要审核上千份文件,引入智能审单模型后可提升150%以上效率。
未来,Gamma Lab团队计划将现有技术进一步应用于现有模型的迭代升级及更多业务场景拓展,用*进的技术赋能金融行业。
Gamma Lab作为金融壹账通旗下人工智能研究院,致力于推动大数据、人工智能等前沿技术在金融领域的深度应用。Gamma Lab拥有众多人工智能、大数据专家,累计申请专利技术200多项,前后获得近十项世界竞赛冠军。Gamma Lab 的迅速崛起离不开金融壹账通对科技人才、科技研发的持续投入。当前,金融壹账通研发技术人才就占46%,吸纳了众多来自牛津、清华、北大、复旦、上海交大等全球名校的人才不断加入。未来,金融壹账通将凭借灵活多样的产品矩阵和科技服务能力,为客户创造更多的价值,把“科技让金融更简单”落到实处。