旗下微信矩阵:

2023数博会丨海天瑞声贺琳:数据赋能数智新未来

2023-05-30 17:27 · 互联网     

5月27日,2023数博会投资人大会暨数字经济投融资联盟数谷行活动在贵阳举行。大会以“引金聚黔、数智赋能”为主题,邀请优秀行业投资人、知名专家和数据企业负责人开展主题演讲、*对话等活动。

1685427512596488.png

贵州省委常委、常务副省长吴强出席并致辞。贵阳市委副书记、市长马宁宇致辞。中国互联网投资基金管理有限公司党委书记、董事长吴海等作主题演讲。

海天瑞声创始人、董事长贺琳受邀出席并发表《数据赋能数智新未来》演讲。

1685427528918989.png

大模型产业化对数据服务能力带来新挑战

大模型现已成为了人工智能领域乃至全社会范围下的热点话题,备受关注。但如何发展优化大模型能力,不仅算法、算力需要攻破诸多难题,数据领域也同期面临很多挑战。贺琳表示,相比于传统的专有模型,大模型对数据的规模、质量、多样性等都提出了更高的要求。例如,在数据层面,我们需要打破数据孤岛,在保障数据安全的前提下,更好地共享和应用各领域、各行业的数据。这就需要数据服务商具备丰富的行业know-how及数据资源,拥有针对性解决各行业特定问题的能力,以支撑大模型产业落地。

大模型发展中的新兴数据需求

在谈及大模型发展中将产生哪些新兴数据需求时,贺琳分享了三个阶段的不同需求。首先是在预训练阶段,这除了是模型训练中算力耗费*、用时最长的阶段,同时也是数据需求的集中阶段,原始数据的合规获取以及高质量的数据清洗将成为该阶段数据需求重点。

第二个阶段是强化学习阶段。通过人类对机器回答进行反馈,使模型输出内容更趋近于真实人类表达。该阶段我们需要通过数据集设计,保证大模型表述符合当下法律法规及人类价值观,保证AI向善,更好服务于大模型长期发展。

第三个阶段是应用阶段。在大模型完成全流程的学习训练后,往往会通过第三方的专业数据集对大模型效果进行评测,该阶段同样离不开高质量的数据集。

目前大模型产业化的发展趋势主要分为两个层面:首先是多模态技术将会成为主流,多模态数据需求将会激增;其次是对数据的需求将会越来越复杂,标准也会越来越高。

助力人工智能行业高质量发展

海天瑞声致力于“做智能世界的数据基石”

为更好的助力人工智能行业高质量发展,海天瑞声也在不断探索创新,力争从训练数据角度出发,为行业提供有力支撑。

贺琳介绍到,早在2005年海天瑞声就专注于人工智能数据服务领域,目前已积累超过1300个自有知识产权数据集,覆盖全球190余个语种/方言,同时专业的数据服务能力获得全球客户广泛认可,目前公司服务的全球客户数量已超过810家。

海天瑞声始终致力于用技术赋能数据处理,通过在企业级数据处理平台中嵌入基础算法,保障数据集生产的规模化、智能化、高质量和高效率,目前公司已积累16个算法框架,超200个算法模型,用以支撑全类数据的高效量产。

面向人工智能历史新机遇,贺琳表示,海天瑞声作为数据领域的领军者,将为产业界提供更全面更优质的服务,持续助推人工智能数据领域高质量发展,助力数字经济腾飞。

(免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。请读者仅做参考,并请自行承担全部责任。)