AI 语音克隆神器 IndexTTS-2 开源,支持零样本声音克隆

B站影视 韩国电影 2025-10-11 18:22 1

摘要:IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS-2 实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。

教程链接:https://go.openbayes.com/XutrT

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

模型提供了 4 种情感控制方法,下面逐一进行演示。

Same as the voice reference

首先上传一段参考音频,然后在「Text」中输入文本,最后点击「Synthesize」合成。

具体参数

do_sample:是否进行采样。

temperature:控制采样时概率分布的平滑程度。

top_p:核采样。

top_k:在每一步生成时,只考虑概率最高的 K 个 token。

num_beams:束搜索宽度。

repetition_penalty:重复惩罚,降低模型重复生成相同 token 的概率。

length_penalty:长度惩罚,鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。

max_mel_tokens:生成 Token 最大数量。

Use emotion reference audio

分别在「Voice Reference」和「Upload emotion reference audio」中上传参考音频和情感参考音频,在「Text」中输入文本,点击「Synthesize」合成。

Use emotion vectors

该方法支持调整情感参数和情感控制权重。

情感控制参数

Happy、Disgusted、Angry、Melancholic、Sad、Surprised、Afraid、Calm:分别对应 8 个基本情感维度。每个滑块的值(通常在 0.0 到 1.0 之间)表示希望在最终语音中体现该情感的强度。

Use text description to control emotion

该方法支持手动输入情感描述,但目前还处于实验阶段。

来源:多多谈科技

相关推荐