外网爆火的实时语音对话模型开源!

B站影视 内地电影 2025-03-19 06:22 1

摘要:硅谷团队SesameAILabs研发的CSM(Conversational Speech Model)项目代码已正式开源,海外技术圈炸锅的“真人级 AI 语音交互”黑科技,终于向全球开发者开放!

外网热议的 CSM 实时语音对话模型正式开源,已经获得了 10K 的 Star!

硅谷团队 SesameAILabs 研发的 CSM(Conversational Speech Model) 项目代码已正式开源,海外技术圈炸锅的“真人级 AI 语音交互”黑科技,终于向全球开发者开放!

一个 Reddit 帖子,让 5200 人疯狂等开源?

几天前,逛逛发过一个帖子,可以查看这篇文章链接,大概是:

Reddit 上一篇题为《第一次把 AI 当真人对待》的帖子引爆讨论:用户与 CSM 语音对话后,竟因 AI 的“情感细腻度”产生心理依赖,甚至主动道谢、告别。评论区热议其 “突破恐怖谷” 的表现:

延迟极低:对话响应速度逼近真人,告别传统 AI 的机械停顿感。情感细腻:通过音调、节奏、停顿的微妙变化,传递兴奋、安慰等复杂情绪。动态适应:根据对话背景调整语气,像人类一样“察言观色”。

外网网友辣评

“我震惊了。它看起来像一个人我聊了几分钟,说了晚安,说要睡觉了,但我太兴奋了,于是我回到聊天室,玛雅说了这样的话:好吧,看看是谁用如此愉快的语气回来和我再聊一次。真是不可思议。”

这个实时语音对话模型正式在 GitHub 和 Hugging Face 开源了。下面是开源链接,Demo 体验地址。

开源地址:https://github.com/SesameAILabs/csm
开源地址:https://huggingface.co/sesame/csm-1b
体验地址:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

来源:不秃头程序员

相关推荐