用科技赋能文化: 喜马拉雅用AI技术让内容生产提效让内容体验增值

2023-03-15 16:16 · 互联网　　　

近日，喜马拉雅用单田芳AI合成音所制作的TTS（语音合成）专辑总播放量破亿，这标志着喜马拉雅在现有的“UGC + PGC + PUGC”内容生态之外，已经通过AIGC探索出内容生产的更多可能性。

据悉，喜马拉雅“单田芳声音重现”等账号下上线的运用单田芳AI合成音所制作的专辑数量已经有100多张，总播放量超过1亿。其中，有15张专辑播放量破百万，例如，《民国四大家族》播放量近730万，《十二金钱镖》播放量近700万，《卧虎藏龙全集》播放量超390万。

通过行业*的TTS技术，喜马拉雅用AIGC引领长音频行业的内容生产变革，让内容生产提效。与此同时，喜马拉雅还通过多项语音技术的加持，进一步提升用户的内容消费体验。

TTS技术*复现单式评书

去年9月，在北京单田芳艺术传播有限责任公司授权下，喜马拉雅用TTS技术*还原已逝的单田芳先生的声音，并首次将单田芳先生的AI合成音全新演绎听众耳熟能详的经典之作。

为了能最大程度保留单老那苍劲、沙哑的独特嗓音以及情感充沛的评书腔调，喜马拉雅智能语音实验室对单田芳先生声音进行潜心探索和研发，通过自主设计单独的韵律提取模块，并将其融入到 HiTTS 技术框架中，不仅*复现了单老苍劲、沙哑的“云遮月”式独特嗓音，就连他那情感充沛、起伏跌宕的腔调也一并保留了下来，让单老的AI合成音仿佛本尊再现。单田芳先生之子单瑞林也评价表示，“听到TTS声音，心魂间猛然一阵，仿佛父亲又回到这个世界。”

喜马拉雅已在TTS领域潜心钻研多年，并专门成立喜马拉雅智能语音实验室，长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发。喜马拉雅智能语音实验室的卢恒博士表示，针对小说的TTS系统和音色选取是喜马拉雅TTS的亮点与特色。用真实自然的TTS音色演绎有声小说是非常难的，不同于普通的文字转语音，用TTS音色演绎小说需要学习小说中的抑扬顿挫、情感表达、上下文关系，区分旁白和对白，并最终将作品*演绎出来。“喜马拉雅在这方面有着天然的优势。在音频赛道耕耘多年后，喜马拉雅已经聚集了海量有声书内容和众多优秀主播。喜马拉雅智能语音实验室尝试用各式的声音来表达不同的情感、题材和频道，因而就有了更大的试验和发挥空间。”

卢恒博士介绍，喜马拉雅自研的TTS前端文本处理分析模块已经能够高精度、全自动地对文本进行多音字识别、韵律预测和风格分类，并已开发出可以实现多情感、多风格、多语种声音的TTS技术模型，不仅可以演绎不同情绪的文字，还可以自动区分旁白、对白，并支持英文，极大地丰富了TTS能表达的情感和韵律。

目前，喜马拉雅已申请了20多项语音技术相关专利，其中有10多项TTS语音合成相关专利。今年，还有两项语音技术成果先后被世界*学术会议“2022年IEEE国际音频、语音与信号处理会议”收录，展现了喜马拉雅强大的语音技术实力。

AIGC助力内容生产提效

通过行业*的TTS技术，喜马拉雅成为音频领域AIGC的先行者。除了评书，喜马拉雅多情感、多风格、多语种声音的TTS技术模型已经广泛被运用于新闻、小说、财经专辑等多种内容的制作中。喜马拉雅签约和制作了不同的TTS音色，来适配不同的内容、满足用户多样的需求。

例如，喜马拉雅原创TTS音色“喜晓峰”和“枪枪”已被应用于《听秦说》《36氪·氪金大事件》《海清评财经 | 股票、债券及基金投资的一线参谋》等财经专辑内容中。其中，“秦朔朋友圈”账号下《听秦说》专辑过去更新频率为每周一次，但在采用喜马拉雅TTS技术后，开始每日更新。

“秦朔朋友圈”发起人、中国商业文明研究中心联席主任、及《听秦说》主播秦朔表示，过去没有使用喜马拉雅TTS技术时，需要真人录制专辑内容，耗时长，更新频率低，而使用TTS技术后，内容生产效率大幅提升，可以让“秦朔朋友圈”的文章即时音频更新，轻轻松松便实现了日更，专辑的播放量和互动数据都显著提升。

除此之外，新京报、环球时报、潇湘晨报、时代周报、海外网、刺猬公社等数十家媒体也通过喜马拉雅多种标准普通话男声和女声的TTS音色上线了超过40张TTS专辑。

今年，喜马拉雅基于自研的TTS框架，采集头部主播“喜道公子”的真声打造的AI主播“喜小道”，与AI续写应用“彩云小梦”合作，打造了*从故事创作到演播均由AI完成的AI电台。

AIGC不仅助力喜马拉雅和内容创作者实现内容生产提效，推动创作者布局音频，实现转型升级，也给用户带来更丰富的内容。

AI技术助力内容体验增值

与此同时，喜马拉雅也通过TTS、ASR、语音信号处理算等多种AI技术进一步提升用户的内容消费体验。

目前，喜马拉雅已经与近百家网络平台和出版机构合作上线近6万本电子书，而TTS技术能为这些电子书实时生成TTS声音，让用户可以边听边看，从而为用户带来“听看一体”的内容服务。

近期，喜马拉雅又利用行业*的自动语音识别技术（ASR）以及对齐算法，上线了全新版本的AI文稿功能，用户在收听喜马拉雅音频内容的时候，也可以在收听页面同步阅读相应的文字内容，享受“边听边看”、“听看一体“的内容消费体验。

全新上线的AI文稿功能，能有效识别无文稿声音内容，为其自动生成文稿;对于已经有原始文稿的声音内容，则采用超长音频与文本的对齐技术，将声音与文稿进行时间戳对轨，从而在声音播放的同时，对相应文字进行同步高亮，实现声字同步，让用户能更便捷地享受边听边看的内容消费体验。这不仅进一步提升用户体验，有利于增强用户粘性，也使用户能够在不同场景中，自由切换听和看两种形式，畅享喜马拉雅平台上的丰富内容，进一步拓展了喜马拉雅的多元化使用场景。