特斯联推NLP自训练学习算法：提升机器学习效率促AI普惠发展

2022-01-17 15:12 · 互联网　　　

机器学习是推动人工智能（AI）向前发展的核心技术。随着深度学习技术的发展，人工智能在产业应用中得到了质的提升。然而，当前的深度学习技术依然强依赖于有较丰富机器学习经验的算法研发人员以及大量的标签数据。二者带来的高成本令AI算法于产业应用而言仍被视为奢侈品。此外，由于在实际应用中，研发人员极大概率无法获取大量标签数据，市面上的AI开放平台推广效果并不理想。

为解决这一问题，特斯联基于TACOS（特斯联智慧城市操作系统）打造了可赋能城市AI的“九章AI算法赋能平台”，以弱监督训练体系、联邦学习训练体系、自编码技术三大核心技术为支撑，通过共享孵化模式，为无AI背景的跨行业企业、中小微企业提供低代码、无代码的自有知识产权的算法孵化技术。

本文为大家介绍其中一个核心技术点：基于对比学习与自监督的NLP自训练学习算法。

NLP自训练学习算法：已知反哺未知，提升学习效率

特斯联核心算法团队基于8000+项目的业务数据，提出了自监督、半监督、带噪学习等技术，*限度从领域数据、大量无标签数据、已有无标签样本、已知标签样本特征中，挖掘潜在内嵌信息，反哺到未知标签数据上，减少人工干预，提升学习效率。

1.基于自监督的预训练算法

特斯联通过对自有8000+项目生产的数据进行提取，获得大量无标签数据，并基于bert模型实行自监督无人工干预的预训练，让bert模型深入地学习到领域内知识，从而保证模型得到领域内数据更精确的特征表示。该方法通过三个步骤实现：

1）步骤1，采用[MASK]。采用基于分词的n-gram masking技术，1-gram~4gram Masking的概率分别为40%、30%、20%、10%。Mask使用whole word masking方式对分词后的结果进行。

2）步骤2，取消[MASK]。通过word2vec计算相似度，召回最相似的词替代MASK，缓解预训练任务与下游fine-tune任务的不一致性。基于分词后的结果随机挑选15%的词进行MASK。其中80%同义词替换，10%随机词替换，10%保持不变。

3）步骤3，添加sentence-order prediction任务。Sentence-order prediction任务用以预测自监督的两个句子为正序或逆序，使预训练模型学习到sentence pair的内在知识。

上述三个步骤之后，算法将所有训练集和测试集的数据去掉标签，并结合所有未标注的数据，进入预训练模型实行自监督预训练，让预训练模型更充分学习到任务数据的内在语义特征，更精准地预测无标签数据。

2.特征表示学习算法

特斯联提出通过一个改进的全局特征相似度，充分挖掘样本特征内在的联系和表示，从而构建捕捉样本间细粒度特征的学习模块。

如上图，输入分别通过4个大模型，每个大模型分别在一块GPU中，通过master节点分发输入，最终master节点将4块GPU中大模型的输出进行concat，并通过线性层得到最终输出

特征表示学习算法模型主要采用bert、roberta、macbert，其base和large模型级联分别对应如图GPU1、GPU2、GPU3，得到输出的embedding特征表示为E1、E2、E3。GPU0部分为bert、roberta、macbert模型级联，使用fgm对抗性训练技术，最终得到输出embedding特征表示为E0。这里使用stacking的集成学习思想，结合四种特征表示concat (E0,E1,E2,E3),再进入分类器得到模型输出，让特征的表示更加丰富，融合各模型知识，以不同的视角去获得特征表示，以此为后续的任务提供更有效的支持。

3.自训练系统

自训练系统为一个自监督训练系统，其流程分为两个阶段：*阶段，采用自监督对比学习技术，充分利用无标签数据进行自监督训练，让模型清晰地表达现有数据；第二阶段，使用少量带标签数据对模型微调，让模型在任务数据上达到较好效果。其中，*阶段分为自监督与半监督两个步骤：

*步，自监督/对比学习。

我们希望两个指标尽可能低，也希望正样本距离足够近，语义向量尽可能均匀分布在超球面上。

通过改变dropout mask生成的方法可保证语义一致性，只是生成的embedding不同。按照模型训练目标在无标签的数据上进行自监督训练，让模型充分学习到无标签数据的内嵌知识和表示。

第二步，半监督/对比学习。

为进一步提升模型的性能，对于已收集到的大量无标签数据，也可使用微调后的模型对无标签数据生成标签。这里可通过设定阈值限制选择高置信度的标签，将这些标签混合原始的标注数据继续微调模型，进一步提升模型性能。

自监督训练系统解决了标注数据不足，少标签数据的问题，可在极少人工干预的情况下，让不懂AI算法的人员训练出属于自己的AI模型。

CCKS2021摘银，高标准、严要求积累产业实践经验

通过三方权威竞赛验证技术一直是特斯联核心算法团队的基本要求。

为验证基于对比学习与自监督的自训练学习算法的泛化性和鲁棒性，我们让无AI经验的开发工程师通过九章平台参加了2021年参加了首届“英特尔创新大师杯”深度学习挑战赛的CCKS2021地址相关性任务赛道。

地址文本相关性任务在现实世界中存在着广泛的应用场景，如：基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位服务、不同地址信息系统的对齐服务等等。

比赛过程中，经核心算法研究团队分析，初赛及复赛阶段数据集内部存在部分重复数据，清洗后其完全匹配：部分匹配：不匹配比例约为1：5：10，且样本存在较严重的不均衡现象，完全匹配和部分匹配的差别席位，很难完全区分。此外，部分标注训练数据存在错误、标注质量差。加之，复赛阶段测试数据不可见，无法根据测试集的数据特性确定修改模型方案，亦无法通过分析测试数据来确定模型和方案的调优思路。这一环境与实际产业算法孵化极其贴合。

最终，基于弱监督训练体系及预训练模型，通过“九章AI算法赋能平台”特斯联的算法产品工程师在复赛仅12小时的比赛时间内，以87.66分的成绩，在一百多支队伍中脱颖而出，夺得“英特尔创新大师杯深度学习挑战赛”的第二名。比赛很好的验证了该技术的泛化性和鲁棒性，也为“九章AI算法赋能平台”积累了大量的产业实践经验。

推动产业应用，让AI飞入寻常百姓家

TACOS为特斯联打造的智慧城市操作系统。TACOS将传统的OS（操作系统）概念升级到城市的智慧场景之中。以OS为设计原型，TACOS是一个云原生开放平台，通过建设云端数字基础设施，实现城市基础设施与云端资源的协同开放，并以此驱动城市管理的升级，促进产业生态的繁荣，推动绿色低碳的落地。

前面提到的“九章AI算法赋能平台”是内置于TACOS的AI算法平台。该平台基于特斯联的产业数据，不断打磨弱监督、联邦学习训练体系，将数据变成真正能够赋能产业的资产。

如今，“九章”可提供视觉图像、自然语言处理、推荐预测、知识图谱四大方向共十三个技术子方向的赋能服务，通过自编码技术，向无AI背景或弱AI背景的公司提供低代码、无代码的自有知识产权的算法孵化能力。“九章”以其在各园区落地的科创中心为切入点，通过数据云平台、develop studio、算法舱三大功能模块，为入驻企业提供算力、模型、平台的全系共享租赁及数据资产托管服务，以共享模式降低中小微企业的算法孵化成本，使AI的红利不仅仅掌握在少数人手里，更能惠及城市中每一个企业，乃至每一个人。

同时“九章”通过research studio实现学术生态的拉通，让学术研究可以通过联邦学习，安全地共享到完整的数据生态，让学术生态研究的预训练模型通过弱监督体系为“九章”源源不断地提供动力。值得一提的是，“九章AI算法赋能平台”并非一个静态的平台，其算法亦可实现自进化——也正因如此，“九章AI算法赋能平台”得以依据需求的不断变化，为城市提供包括行业应用、教培、科研等全方位的AI赋能服务。

截至目前，“九章AI算法赋能平台”共有82个预训练模型，累积预训练模型调用量逾千次，其算法调用超百余万余次。

（免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。请读者仅做参考，并请自行承担全部责任。）