摘要:最近刷视频的时候,总能刷到些让人眼前一亮的精彩视频,比如用英文配音的《甄嬛传》,还有坦克飞天、曹操跟孙悟空对打的画面,这些视频里角色的声音跟原版几乎一模一样,连说话时带的情绪、断句的节奏都特别像,后来才知道,这些居然全是AI做出来的。
文 /编辑:雨
最近刷视频的时候,总能刷到些让人眼前一亮的精彩视频,比如用英文配音的《甄嬛传》,还有坦克飞天、曹操跟孙悟空对打的画面,这些视频里角色的声音跟原版几乎一模一样,连说话时带的情绪、断句的节奏都特别像,后来才知道,这些居然全是AI做出来的。
这些视频能有这么好的效果,背后靠的是哔哩哔哩Index团队刚开源的一个叫IndexTTS-2.0的文本转语音模型。
这个模型从演示版本放出来开始,不管是国内还是国外的技术社区,都有不少人关注,现在在Github上已经有超过10000个star了,很多开发者都在研究这个模型怎么用。
之前做大规模文本转语音模型的时候,一直有个难题,就是想让语音听起来自然,还得让时长跟需要的完全对上,这事一直没解决好。
以前那种自回归模型,虽然能让语音的韵律更自然,也能模仿不同的说话风格,但想精准控制时长特别难;而那种非自回归模型,控制时长倒是容易,可语音听起来就没那么自然,情绪也表达不出来。
IndexTTS团队琢磨出了一个新办法,给自回归系统加了个“时间编码”机制,这下总算解决了自回归模型控制时长的问题,而且还能把音色和情绪分开调整,让语音能表达出更多样的情绪,效果比之前那些最先进的系统都好。
这个模型主要分三个部分干活,先把文字转换成语义相关的序列,再把这个序列变成一种叫梅尔频谱图的东西,最后通过一个叫BigVGANv2的工具把频谱图转成能听见的语音。
用这个模型的时候,就算是第一次接触的新声音、新语言,也能生成自然又带情绪的语音,还能精准控制时长,不管是做研究还是实际用在产品里都合适。
实际测试的时候,不管是中文还是英文,生成的语音在数量上的误差都特别小,基本不超过0.03%,大多时候还不到0.02%,这样一来,像给视频配音、让声音和画面完全对齐这种对时长要求高的活儿,用这个模型就特别合适,既不会让语音听起来生硬,又能卡准时间点。
在情绪控制上,这个模型也有两下子,能把说话人的音色和情绪分开调整,不光能照着一段参考音频,同时模仿里面的音色和情绪,还能单独选一个人的音色,再配另一个人的情绪。
而且用起来也简单,除了找一段音频当参考,还能用文字描述来调整情绪,比如写一段场景描述,模型就能根据文字判断该用什么样的情绪说话,就算不太懂技术的人也能上手。
另外,为了让那些情绪特别强烈的语音,像哭腔、大喊的时候听起来更清楚,团队还在模型里加了类似GPT的潜在表征,又用了一种叫流匹配的方法做语义转频谱图的模块。
这么一改,语音生成的稳定性变高了,频谱图还原得也更准,就算情绪再激烈,说话的内容也能听得明明白白, 实际测试的时候,这个模型的表现确实不错。
另外,它还支持中英文双语,能生成自然的双语语音, 这个模型现在已经用在不少地方了,像AI配音、视频翻译、有声读物、动态漫画、语音对话这些场景,体验都比以前好很多。
尤其是对B站来说,帮了大忙,很多优质内容要传到国外的时候,用这个模型配音,既能保留原来的风格和情绪,又能让国外观众听得自然,不用再像以前那样担心配音不贴脸或者情绪不对。
这么一来,高质量内容跨语言传播的难度就降低了不少,也给AI生成内容技术在全球范围内的实际应用打下了好基础,算是零样本文本转语音技术能真正用到实际场景里的一个重要突破。
现在IndexTTS团队已经把模型的权重和代码都公开了,不管是开发者还是研究人员,都能拿过来用,以后说不定能做出更多个性化、让人有代入感的语音交互产品。
比如以后做有声书,能根据不同角色选不同的音色和情绪;做视频翻译,几分钟就能搞定精准又自然的配音,不用再等人工配音花好几天时间。
这种技术进步,慢慢会让大家在日常生活里接触到的语音类产品越来越好用,也会让内容创作变得更简单,普通人说不定也能靠AI做出有意思的语音内容。
来源:淩轩a