一键生成 90 分钟 4 人对话语音!VibeVoice-1.5B 重新定义 TTS 技术边界

B站影视 内地电影 2025-09-17 19:03 2

摘要:VibeVoice-1.5B 是由微软于 2025 年 8 月发布的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的

VibeVoice-1.5B 是由微软于 2025 年 8 月发布的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的能力,同时保持高保真度。VibeVoice 能合成长达 90 分钟的语音,支持多达 4 位不同说话者,突破传统 TTS 系统的限制,为自然对话和情感表达提供新的可能。

教程链接:https://go.openbayes.com/dPXAL

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

进入模型页面后,在「Number of Speakers」中选择说话人数,「Speaker 1-4」设置说话人,「Conversation Script」中输入对话文本,最后点击「Generate Podcast」生成。

笔者以四人对话为例,生成了一段语音:

*prompt:

Speaker 1: Guys, the local farmers' market has the best fresh peaches this time of year—juicy and sweet!

Speaker 2: I know! I picked up a basket last Saturday and made peach cobbler. My roommate went crazy for it.

Speaker 3: Nice! Do they sell honey there too? I need some for my morning oatmeal.

Speaker 4: Absolutely! The beekeeper stall has lavender honey that’s incredible. Wanna go together this weekend? I’ll bring my reusable bags.

来源:小周科技观

相关推荐