摘要:IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格
IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS-2 实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。
教程链接:https://go.openbayes.com/XutrT
http://openbayes.com/console/signup?r=sony_0m6v
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
模型提供了 4 种情感控制方法,下面逐一进行演示。
Same as the voice reference
首先上传一段参考音频,然后在「Text」中输入文本,最后点击「Synthesize」合成。
具体参数:
do_sample:是否进行采样。
temperature:控制采样时概率分布的平滑程度。
top_p:核采样。
top_k:在每一步生成时,只考虑概率最高的 K 个 token。
num_beams:束搜索宽度。
repetition_penalty:重复惩罚,降低模型重复生成相同 token 的概率。
length_penalty:长度惩罚,鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。
max_mel_tokens:生成 Token 最大数量。
Use emotion reference audio
分别在「Voice Reference」和「Upload emotion reference audio」中上传参考音频和情感参考音频,在「Text」中输入文本,点击「Synthesize」合成。
Use emotion vectors
该方法支持调整情感参数和情感控制权重。
情感控制参数:
Happy、Disgusted、Angry、Melancholic、Sad、Surprised、Afraid、Calm:分别对应 8 个基本情感维度。每个滑块的值(通常在 0.0 到 1.0 之间)表示希望在最终语音中体现该情感的强度。
Use text description to control emotion
该方法支持手动输入情感描述,但目前还处于实验阶段。
来源:多多谈科技