摘要:先说个热乎的,小红书前几天又扔王炸了,智创音频团队甩出FireRedTTS-2和FireRedChat,直接把AI音频玩出了圈。
先说个热乎的,小红书前几天又扔王炸了,智创音频团队甩出FireRedTTS-2和FireRedChat,直接把AI音频玩出了圈。
咱先盘盘这俩家伙有多猛,FireRedTTS-2简直是个“声控魔术师”。
以前克隆音色得喂一堆音频,现在就给一句样本,不管是搞怪风还是“女友音”,分分钟给你复刻出来。
最绝的是多轮对话,4个人唠嗑不带卡壳的,音色切换稳得一批,生成的播客跟真人录的没啥区别。
再说FireRedChat,这可是业内头一个全开源的全双工语音对话系统。
啥概念?就是从“听懂你说话”到“回你话”全链路打通,还支持私有化部署。
说白了,就算你是技术小白,克隆下代码,也能搞个自己的语音助手,跟豆包那个“打电话”功能差不多。
更绝的是它带情绪感知,你失落时能轻声安慰,开心时跟你一起嗨,这“人感”做得是真到位。
其实小红书早就不是第一次搞事了,去年9月出的FireRedTTS,就靠“给段文本+几秒音频,随便仿音色”火过一把。
今年2月的FireRedASR更猛,语音识别错误率低到3.05%,把豆包、阿里的闭源方案都甩在后面,GitHub上直接收了1.3k的star,妥妥的“别人家的孩子”。
小红书这么拼,可不是单纯秀技术,你看它这布局,从TTS到ASR再到语音对话,整个语音交互的核心环节全给覆盖了。
按他们的说法,未来还要搞音乐大模型、多语种识别,这明显是要搭起一个音频技术的“全家桶”。
更狠的是,人家开源都开到体系层了。
就说FireRedChat,不是扔个模型就完事,VAD、ASR、TTS这些模块全给你配齐,相当于把整个生产线都给你了。
以前开发者想搞个语音助手,得东拼西凑各种技术,现在直接拿小红书的开源方案,能省不少功夫。
这招有点像“农村包围城市”,先用开源降低门槛,把开发者圈进来,慢慢形成生态。
团队负责人说要建“工业级可商用的音频开源社区”,这话可不是随便说说。
你想啊,开发者用他们的模型搞应用,企业直接部署商用,用的人越多,反馈就越多,模型迭代就越快,这就形成了一个良性循环。
现在音频开源模型在整个AI开源里占比还不高,但小红书这波操作,怕是要把这摊子越搞越大。
在AI这圈子里,开源和闭源一直是对冤家,OpenAI那些巨头靠闭源堆壁垒,小红书偏反着来,把家底都亮出来。
以前小公司想搞音频AI,要么买不起闭源方案,要么技术跟不上,现在有了小红书的开源模型,相当于站在巨人肩膀上搞创新。
就说那个FireRedASR,有创业公司拿它搞方言客服系统,落地周期直接缩短了一大半。
这就是开源的魅力,让技术不再是巨头的专利。
八年前Transformer开源推动了大模型发展,现在小红书在音频领域这么搞,保不齐就能催生出更多好玩的应用。
其实小红书这步棋看得挺远,音频只是个开始,他们在多模态、AIGC这些方向都有动作,未来要是跟小红书的内容生态一结合,直播、电商里能玩的花样可就多了。
现在校招还在猛招人,明显是要大干一场,说到底,AI这东西,只有让更多人能用、会用,才能真正发挥价值。
小红书用开源打破壁垒,把技术平权这事落到了实处,以后音频AI怎么玩?说不定就看他们这波生态能不能支棱起来了。
来源:云娱云己