旗下微信矩阵:

数据标注行业竞争激烈如何破局?冰山数据提出最新解决方案,进一步降低成本

2021-06-04 15:48 · 互联网     

冰山数据是国内数据标注赛道中的新成员,成立于2020年,通过深度打磨的世界级供应链和AI辅助数据标注平台,为头部AI企业提供全方位的数据采集和标注服务,冰山数据在东南亚和非洲各国建立了独有的世界级众包资源网络,仅一年时间,该资源网络已超过2000名标注员,成功交付项目超过200余。

除了丰富的众包资源,冰山数据还拥有高效的数据标注平台——冰山标注系统,用于支持标注托管、SaaS和私有化部署业务。在计算机视觉方面,冰山标注系统支持目标检测、语义分割等场景的预识别技术,在多语言方面可支持80多种语言OCR和ASR预识别,为需求方提供更准确、更高效、更便宜的数据服务。

什么是数据标注?——有监督机器学习的必要条件

引用自:人人都是产品经理《谈谈数据标注那些事》

要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这东西叫做“苹果”。

类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是什么的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。

我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为经验。

数据标注行业的壁垒——高效的数据标注工具

随着近几年AI的迅猛发展,提高模型迭代速度是AI公司的重要任务,但数据标注的难度在不断提高,仅靠人工操作难以提高数据标注的速度和质量,多模态的融合数据更是无法用传统的标注工具诸如常见的的Labelme、Labelimg等软件完成,所以开发一款高效率且标注场景齐全的数据标注平台成为行业新的门槛。

日前,各家数据公司都在提高技术能力以达到节省人工标注成本的效果,通常的解决方案是通过将主流的开源模型与自家标注平台进行加持,用模型先进行预测标注再由人工进行校正,其次是通过优化数据流转管道,实现项目自动拆分及自动分发,或是通过模型质检、拟合质检、隐藏数据埋雷等方式进行辅助质检,通过这种方式不仅可以减少错误标注,同时可以节省大量的人工成本。通过以上所有方式可节约大概30%的成本。

冰山数据创始团队在行业深耕5年之多,几位创始人曾就职于各知名数据公司,创始人钟平曾任职于百度众测,担任数据标注平台产品经理,深知前端标注工具和后端数据流转的痛点,现担任冰山数据产品经理兼CEO,致力于打造最完善的数据标注平台——冰山标注系统,帮助提高冰山数据的技术竞争优势,在未来,冰山数据计划打造冰山MLops,提供数据标注到模型部署的一站式机器学习平台。Image

冰山标注系统通过算法对汽车边界进行预测标注

数据标注竞争激烈,如何破局?——离岸众包网络,低于国内三线城市人力成本

根据艾瑞咨询2020年《中国AI基础数据服务行业发展报告》中的数据统计显示,“2019年中国AI基础数据服务行业市场规模达到了30.92亿元,根据需求方投入情况和供应方营收增长情况推算,预计2025年市场规模将突破100亿元,年化增长率为21.8%”。

根据其他行业数据显示,知名数据平台公司如海天瑞声、数据堂等公司市场占有率仅约30%,其余70%市场仍掌握在人力供应商如河南、贵州等用人成本较低的地区。

在一线城市,一个经验丰富的标注员日薪约为180-200元之间,在三四线城市约为120-150元之间,冰山数据通过高效的标注工具,配合冰山数据独有的东南亚和非洲等贫困地区的离岸众包网络,可达到65元/人/天的*价格,如常见的2D目标检测框,市场价格约为0.1元/标注,冰山数据仅收取0.05元/标注,为AI公司提供*价格的数据标注服务,并帮助其实现模型快速迭代。

冰山数据创始团队认为,在不久的将来数据标注行业将重新洗牌,冰山数据将通过技术提升+离案众包的低成本优势从市场中取得大量份额,在众多数据标注公司中脱颖而出。

Image

冰山数据印度团队培训照片

(免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。请读者仅做参考,并请自行承担全部责任。)