打破技术垄断！小红书音频开源矩阵，正在重塑AI产业规则

摘要：先说个热乎的，小红书前几天又扔王炸了，智创音频团队甩出FireRedTTS-2和FireRedChat，直接把AI音频玩出了圈。

先说个热乎的，小红书前几天又扔王炸了，智创音频团队甩出FireRedTTS-2和FireRedChat，直接把AI音频玩出了圈。

咱先盘盘这俩家伙有多猛，FireRedTTS-2简直是个“声控魔术师”。

以前克隆音色得喂一堆音频，现在就给一句样本，不管是搞怪风还是“女友音”，分分钟给你复刻出来。

最绝的是多轮对话，4个人唠嗑不带卡壳的，音色切换稳得一批，生成的播客跟真人录的没啥区别。

再说FireRedChat，这可是业内头一个全开源的全双工语音对话系统。

啥概念？就是从“听懂你说话”到“回你话”全链路打通，还支持私有化部署。

说白了，就算你是技术小白，克隆下代码，也能搞个自己的语音助手，跟豆包那个“打电话”功能差不多。

更绝的是它带情绪感知，你失落时能轻声安慰，开心时跟你一起嗨，这“人感”做得是真到位。

其实小红书早就不是第一次搞事了，去年9月出的FireRedTTS，就靠“给段文本+几秒音频，随便仿音色”火过一把。

今年2月的FireRedASR更猛，语音识别错误率低到3.05%，把豆包、阿里的闭源方案都甩在后面，GitHub上直接收了1.3k的star，妥妥的“别人家的孩子”。

小红书这么拼，可不是单纯秀技术，你看它这布局，从TTS到ASR再到语音对话，整个语音交互的核心环节全给覆盖了。

按他们的说法，未来还要搞音乐大模型、多语种识别，这明显是要搭起一个音频技术的“全家桶”。

更狠的是，人家开源都开到体系层了。

就说FireRedChat，不是扔个模型就完事，VAD、ASR、TTS这些模块全给你配齐，相当于把整个生产线都给你了。

以前开发者想搞个语音助手，得东拼西凑各种技术，现在直接拿小红书的开源方案，能省不少功夫。

这招有点像“农村包围城市”，先用开源降低门槛，把开发者圈进来，慢慢形成生态。

团队负责人说要建“工业级可商用的音频开源社区”，这话可不是随便说说。

你想啊，开发者用他们的模型搞应用，企业直接部署商用，用的人越多，反馈就越多，模型迭代就越快，这就形成了一个良性循环。

现在音频开源模型在整个AI开源里占比还不高，但小红书这波操作，怕是要把这摊子越搞越大。

在AI这圈子里，开源和闭源一直是对冤家，OpenAI那些巨头靠闭源堆壁垒，小红书偏反着来，把家底都亮出来。

以前小公司想搞音频AI，要么买不起闭源方案，要么技术跟不上，现在有了小红书的开源模型，相当于站在巨人肩膀上搞创新。

就说那个FireRedASR，有创业公司拿它搞方言客服系统，落地周期直接缩短了一大半。

这就是开源的魅力，让技术不再是巨头的专利。

八年前Transformer开源推动了大模型发展，现在小红书在音频领域这么搞，保不齐就能催生出更多好玩的应用。

其实小红书这步棋看得挺远，音频只是个开始，他们在多模态、AIGC这些方向都有动作，未来要是跟小红书的内容生态一结合，直播、电商里能玩的花样可就多了。

现在校招还在猛招人，明显是要大干一场，说到底，AI这东西，只有让更多人能用、会用，才能真正发挥价值。

小红书用开源打破壁垒，把技术平权这事落到了实处，以后音频AI怎么玩？说不定就看他们这波生态能不能支棱起来了。

来源：云娱云己

标签：开源矩阵音频垄断闭源

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!