打破技术垄断!小红书音频开源矩阵,正在重塑AI产业规则

B站影视 电影资讯 2025-09-19 01:57 1

摘要:先说个热乎的,小红书前几天又扔王炸了,智创音频团队甩出FireRedTTS-2和FireRedChat,直接把AI音频玩出了圈。

先说个热乎的,小红书前几天又扔王炸了,智创音频团队甩出FireRedTTS-2和FireRedChat,直接把AI音频玩出了圈。

咱先盘盘这俩家伙有多猛,FireRedTTS-2简直是个“声控魔术师”。

以前克隆音色得喂一堆音频,现在就给一句样本,不管是搞怪风还是“女友音”,分分钟给你复刻出来。

最绝的是多轮对话,4个人唠嗑不带卡壳的,音色切换稳得一批,生成的播客跟真人录的没啥区别。

再说FireRedChat,这可是业内头一个全开源的全双工语音对话系统。

啥概念?就是从“听懂你说话”到“回你话”全链路打通,还支持私有化部署。

说白了,就算你是技术小白,克隆下代码,也能搞个自己的语音助手,跟豆包那个“打电话”功能差不多。

更绝的是它带情绪感知,你失落时能轻声安慰,开心时跟你一起嗨,这“人感”做得是真到位。

其实小红书早就不是第一次搞事了,去年9月出的FireRedTTS,就靠“给段文本+几秒音频,随便仿音色”火过一把。

今年2月的FireRedASR更猛,语音识别错误率低到3.05%,把豆包、阿里的闭源方案都甩在后面,GitHub上直接收了1.3k的star,妥妥的“别人家的孩子”。

小红书这么拼,可不是单纯秀技术,你看它这布局,从TTS到ASR再到语音对话,整个语音交互的核心环节全给覆盖了。

按他们的说法,未来还要搞音乐大模型、多语种识别,这明显是要搭起一个音频技术的“全家桶”。

更狠的是,人家开源都开到体系层了。

就说FireRedChat,不是扔个模型就完事,VAD、ASR、TTS这些模块全给你配齐,相当于把整个生产线都给你了。

以前开发者想搞个语音助手,得东拼西凑各种技术,现在直接拿小红书的开源方案,能省不少功夫。

这招有点像“农村包围城市”,先用开源降低门槛,把开发者圈进来,慢慢形成生态。

团队负责人说要建“工业级可商用的音频开源社区”,这话可不是随便说说。

你想啊,开发者用他们的模型搞应用,企业直接部署商用,用的人越多,反馈就越多,模型迭代就越快,这就形成了一个良性循环。

现在音频开源模型在整个AI开源里占比还不高,但小红书这波操作,怕是要把这摊子越搞越大。

在AI这圈子里,开源和闭源一直是对冤家,OpenAI那些巨头靠闭源堆壁垒,小红书偏反着来,把家底都亮出来。

以前小公司想搞音频AI,要么买不起闭源方案,要么技术跟不上,现在有了小红书的开源模型,相当于站在巨人肩膀上搞创新。

就说那个FireRedASR,有创业公司拿它搞方言客服系统,落地周期直接缩短了一大半。

这就是开源的魅力,让技术不再是巨头的专利。

八年前Transformer开源推动了大模型发展,现在小红书在音频领域这么搞,保不齐就能催生出更多好玩的应用。

其实小红书这步棋看得挺远,音频只是个开始,他们在多模态、AIGC这些方向都有动作,未来要是跟小红书的内容生态一结合,直播、电商里能玩的花样可就多了。

现在校招还在猛招人,明显是要大干一场,说到底,AI这东西,只有让更多人能用、会用,才能真正发挥价值。

小红书用开源打破壁垒,把技术平权这事落到了实处,以后音频AI怎么玩?说不定就看他们这波生态能不能支棱起来了。

来源:云娱云己

相关推荐