旗下微信矩阵:

国内*“端到端”语音同传大模型——星火语音同传大模型发布

2025-01-15 17:30 · 网络     

1月15日,在讯飞星火大模型升级发布会上,科大讯飞首发具备端到端语音同传能力的大模型——星火语音同传大模型。

此次发布的讯飞星火语音同传大模型,是国内*具有端到端语音同传能力的大模型,展示了科大讯飞在智能翻译领域的最新进展,还标志着高难度同传翻译技术上的重大突破。

科大讯飞的机器翻译系统不仅率先通过全国翻译专业资格考试,在近年来也连续三届夺得IWSLT国际口语机器翻译比赛冠军。随着在大模型能力上的持续投入,结合科大讯飞在智能语音技术上的独特算法积累,终于实现端到端语音同传能力。

实现最快仅5秒的同传时延

据上海外国语大学高级翻译学院院长张爱玲教授介绍,同传的产出质量通常从内容完整度、信息准确度、语言质量和沟通效果几个方面来评价,而在机器翻译的场景中,同传时延是影响沟通效果和听众感受的最重要指标之一。

原因是,目前大部分机器翻译系统采用的是交传技术,难以实现真正的端到端语音同传。交传是发言者说完一段话之后再进行翻译,而同传是发言者说话的同时就进行翻译,对于源语的理解,翻译信息的重组能力,翻译速度都有较高要求。

星火语音同传大模型正是通过模仿人类同传译员的思维链路进行训练,具备实时意群理解和切分、上下文语境精准选词以及碎片化信息重组的能力。这一特性使得该模型在处理复杂句式和语境时表现出色,能够迅速准确地传达原意。

技术测试表明,即使是与国外*竞品的交传技术相比,讯飞语音同传的信息完整度、准确度、语言质量都处于*水平,可以实现最快仅5秒的同传时延,达到人类专家译员的水平。

与此同时,在星火语音同传大模型的技术应用上,采用了“顺句驱动原则”。例如,对于句子“I went to iFLYTEK for a seminar at 10 o'clock yesterday”,如果按意群直译,则是“我去了科大讯飞,为了一场研讨会,在十点钟,昨天”,这样显得生硬且不易理解。因此,科大讯飞研究员利用大模型的生成能力进行信息重组,使其变为“我去了讯飞,参加一场研讨会,时间是昨天上午十点”,既满足了同传时延的要求,又保证了句意的准确传达。

此外,产品还采用了流式合成技术进行意群韵律衔接,并根据源语速自适应调节合成语速。根据源语种和翻译语种的时长差距,向大模型反馈信息,实时调整译文的精炼度。这些创新技术的应用,使得星火语音同传大模型在处理复杂句式和语境时更加得心应手,为用户提供了更加流畅自然的翻译体验。

发布会上,技术人员回顾了科大讯飞在语音同传技术方面的探索历程。他们坦言,十年前公司就有意涉足这一领域,但当时的技术难度极大。如今,得益于大模型能力的发展以及科大讯飞在智能语音技术上的独特算法积累,终于实现了端到端的语音同传。

助力全系产品翻译能力提升

得益于星火语音同传大模型的强劲助力,讯飞翻译机在旅游导览、商务洽谈、展会接待等多种交传应用场景中展现出了*的性能。其翻译速度和准确性均得到了显著提升,为用户提供了更加流畅自然的翻译体验。

在演示环节,讯飞翻译机的产品经理向观众展示了集成星火语音同传大模型技术的产品,无论是海外旅游场景的景点介绍,还是国际展会上的专业产品介绍,星火语音同传大模型都能在短时间内完成高质量的英到中和中到英的双向同传任务。

除了端到端的语音同传能力,星火语音同传大模型还促进了语音到文字翻译效果的提升,使得科大讯飞全系产品的翻译能力都得到显著提升,在日常对话、单人演讲、影视节目,包括场景更复杂、翻译难度更高得多人会议等场景以及医疗等专业领域,为各种国际交流场景提供高质量翻译服务。

发布会最后,科大讯飞透露,针对语音到语音的同传场景,讯飞翻译机将会配置耳机、音箱、麦克风等配件,并在2025年推出商务套装,以满足用户在不同的商务洽谈场景的使用需求。对于需要同传的专业合作伙伴,讯飞同传也限量开放了星火语音同传大模型的功能入口可以进行体验。

(免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。请读者仅做参考,并请自行承担全部责任。)