一键生成 90 分钟 4 人对话语音！VibeVoice-1.5B 重新定义 TTS 技术边界

B站影视内地电影 2025-09-17 19:03 16

摘要：VibeVoice-1.5B 是由微软于 2025 年 8 月发布的新型文本到语音（TTS）模型，能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架，结合大型语言模型（LLM），实现高效处理长序列音频的

VibeVoice-1.5B 是由微软于 2025 年 8 月发布的新型文本到语音（TTS）模型，能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架，结合大型语言模型（LLM），实现高效处理长序列音频的能力，同时保持高保真度。VibeVoice 能合成长达 90 分钟的语音，支持多达 4 位不同说话者，突破传统 TTS 系统的限制，为自然对话和情感表达提供新的可能。

教程链接：https://go.openbayes.com/dPXAL

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

进入模型页面后，在「Number of Speakers」中选择说话人数，「Speaker 1-4」设置说话人，「Conversation Script」中输入对话文本，最后点击「Generate Podcast」生成。

笔者以四人对话为例，生成了一段语音：

*prompt：

Speaker 1: Guys, the local farmers' market has the best fresh peaches this time of year—juicy and sweet!

Speaker 2: I know! I picked up a basket last Saturday and made peach cobbler. My roommate went crazy for it.

Speaker 3: Nice! Do they sell honey there too? I need some for my morning oatmeal.

Speaker 4: Absolutely! The beekeeper stall has lavender honey that’s incredible. Wanna go together this weekend? I’ll bring my reusable bags.

来源：小周科技观

标签：语音 tts speaker tts技术定义tts

本文地址：http://news.43b.com.cn/a/1207019.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!