AI 语音克隆神器 IndexTTS-2 开源，支持零样本声音克隆

B站影视韩国电影 2025-10-11 18:22 21

摘要：IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音（TTS）模型。模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆，仅需一个音频文件即可精准复制音色、节奏和说话风格

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音（TTS）模型。模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆，仅需一个音频文件即可精准复制音色、节奏和说话风格，支持多语言。IndexTTS-2 实现了情感音色分离控制，用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能，支持通过情感参考音频、情感描述文本或情感向量来控制情感。

教程链接：https://go.openbayes.com/XutrT

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

模型提供了 4 种情感控制方法，下面逐一进行演示。

Same as the voice reference

首先上传一段参考音频，然后在「Text」中输入文本，最后点击「Synthesize」合成。

具体参数：

do_sample：是否进行采样。

temperature：控制采样时概率分布的平滑程度。

top_p：核采样。

top_k：在每一步生成时，只考虑概率最高的 K 个 token。

num_beams：束搜索宽度。

repetition_penalty：重复惩罚，降低模型重复生成相同 token 的概率。

length_penalty：长度惩罚，鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。

max_mel_tokens：生成 Token 最大数量。

Use emotion reference audio

分别在「Voice Reference」和「Upload emotion reference audio」中上传参考音频和情感参考音频，在「Text」中输入文本，点击「Synthesize」合成。

Use emotion vectors

该方法支持调整情感参数和情感控制权重。

情感控制参数：

Happy、Disgusted、Angry、Melancholic、Sad、Surprised、Afraid、Calm：分别对应 8 个基本情感维度。每个滑块的值（通常在 0.0 到 1.0 之间）表示希望在最终语音中体现该情感的强度。

Use text description to control emotion

该方法支持手动输入情感描述，但目前还处于实验阶段。

来源：多多谈科技

标签：语音开源克隆 tts emotion

本文地址：http://news.43b.com.cn/a/1528179.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!