200万条数据信息价值重新“盘活” 百度大脑EasyDL专业版赋能瀚才猎头

2020-03-25 16:41 · 艾瑞网　　　

200万条数据利用率只有不到10%。

猎头公司作为“高级管理人员代理招募机构”，为各大公司搜寻高层管理人才和关键岗位人才，在其自身的发展过程中会接触到越来越多的候选人。然而，由于行业、公司、职能、职级等的巨大差异，长期留存的候选人信息会变得十分繁杂且无法很好地进行结构化整理，这对于所有项目的持续跟进都将造成不小的挑战。猎头公司所掌握数据不能被有效使用，就会失去优势和竞争力，如何低成本*化解决问题，同样也让北京瀚才咨询有限公司（瀚才猎头）的负责人为之苦恼，直到接触到了百度EasyDL。

AI助力猎头行业，EasyDL专业版“盘活”历史数据

瀚才猎头是一家专注于猎头行业寻访交付业务的企业，十余年的猎头经验为其储备了200万条不同行业的企业和人才信息，但瀚才猎头长期留存形成的“数据库”，却因难以整理使用反而成为交付服务时的“阻力”。瀚才猎头负责人谭笑然也曾想过使用人工分类整理，“且不说人工逐条分类标注费用极高、耗时长，培养一位能够掌握分类标准的业务人员往往也需要两年时间。”谭笑然无奈之下，还是选择继续寻求其他解决方案。

在百度大脑开放平台的官网，谭笑然了解到了EasyDL定制化训练和服务平台。经过讨论和研究后，他和同事开启了对历史数据的“拯救行动”。在接下来的一个月时间里，他和同事们利用EasyDL专业版文本分类模型，训练了人才信息的行业和职级分类模型，成功将积累十余年的200万条经营数据进行企业内部信息结构化分类，划分成12个大行业、147个小行业和10个通用职级信息，使被“遗弃”的数据开始有了匹配的“用武之地”。

EasyDL专业版“数据拯救”方案：数据清洗+训练分类

事实上，瀚才猎头让复杂数据“重焕生机”过程并不容易。瀚才猎头积累了十余年的庞大数据，包含200万条经营数据。在决定升级数据使用情况后，瀚才猎头*步从数据清洗开始，综合运用百度大脑iOCR自定义模板文字识别、通用文字识别、通用表格识别、词法分析等AI能力将原始信息进行数据清洗。

（图：应用百度大脑AI能力“清洗”瀚才猎头200万条数据的流程图）

紧接着，瀚才猎头安排了两位经验丰富的骨干员工利用工作之余标注了1万条数据作为训练数据，剩余的199万条都是在EasyDL平台上通过智能标注功能实现自动标注，再通过EasyDL专业版文本分类ERNIE预训练模型、BilSTM预置网络快速训练。“在EasyDL专业版选择网络的过程，对我们这样的深度学习初学者也比较友好，每个网络都有对应的能力解释，方便选择测试。”经历了5次版本迭代后，谭笑然与同事们将“候选人职能”、“候选人职级”2个模型的识别准确率都达到了99%+，成功地将企业内部经营信息及候选人信息，安全、高效、低成本地进行了结构化分类，完成了定制模型与日常管理后台集成，将日常运营数据进行了内容结构化处理。

（图：EasyDL专业版文本分类操作界面）

据了解，EasyDL是基于飞桨框架PaddlePaddle推出的面向企业打造的一站式AI开发平台，可为各行业有AI模型开发需求的企业及开发者，提供从数据管理与标注、模型训练、服务部署的全流程支持，模型训练效果好、训练效率高，并且有完善安全的数据服务，支持端、云、软硬一体等多种灵活的部署方式。目前，EasyDL已拥有包括专业版、零售版和经典版在内的三款产品，面向不同人群、不同需求，提供高效的AI模型开发和部署支持。

（图：百度大脑EasyDL产品系列）

以此次瀚才猎头使用的EasyDL专业版为例，这是专门面向算法工程师打造的可深度开发AI模型的产品，全面支持百度飞桨Master模式，预置了优秀的网络结构和基于百度海量数据训练的预训练模型，只需少量数据可达到优异的模型效果。此外，EasyDL专业版也提供完备的数据处理功能，可进行图像分类、物体检测、文本分类、短文本匹配、序列标注等五类数据标注，并提供最高可节省90%的标注成本的“智能标注”功能。在模型部署上，EasyDL专业版还支持将模型部署在公有云API、设备端SDK、私有化部署以及软硬一体产品上，最快仅5分钟即可集成，性能优异。