太意外了!做社交的小红书,竟成国内音频大模型开源最彻底的玩家

B站影视 港台电影 2025-09-18 17:50 1

摘要:在以前,想做到这一步,没点硬实力和大量的时间精力投入根本不可能,今年2月,FireRedASR又紧接着开源,关键指标字错率才3.05%,要知道,豆包、阿里的闭源方案都没达到这水平,现在GitHub上都已经收获1.3k星了。

文|ho侯神

编辑|ho侯神

国内AI开源热潮里,文本、图像领域的大模型你方唱罢我登场,热闹得很,可音频生成领域却像是被按下了暂停键,主流玩家大多选择闭源。

倒也能理解,这领域技术门槛高不说,数据获取难,还得时刻提防版权风险,没几家愿意轻易把压箱底的东西拿出来。

就在大家都觉得音频开源短期内没啥大动静的时候,小红书突然冒了出来,而且一出手就是王炸,成了国内音频大模型开源最彻底的玩家。

去年9月,小红书开源了FireRedTTS,这文本转语音工具是真有点东西,只要几秒参考音频,就能模仿任意音色和风格,还不用二次训练。

在以前,想做到这一步,没点硬实力和大量的时间精力投入根本不可能,今年2月,FireRedASR又紧接着开源,关键指标字错率才3.05%,要知道,豆包、阿里的闭源方案都没达到这水平,现在GitHub上都已经收获1.3k星了。

近期更厉害,新开源的FireRedTTS-2解决了语音合成灵活性差、韵律不自然的老毛病,1句语音就能克隆音色,4人多轮对话播客生成效果在行业里也是数一数二的。

而小红书一个做社交的平台,主业是美妆教程、旅行攻略这些内容,突然在音频大模型开源上这么卖力,会不会只是一时兴起的营销噱头?

毕竟隔行如隔山,音频AI领域技术壁垒那么高,它能坚持多久?

可小红书不是一时兴起,小红书在音频领域的布局早有征兆,它平台本身每天都会产生海量的方言语音、音乐片段、生活场景对话,这些都是训练音频模型的宝贵语料库,这是很多纯技术公司都没有的优势。

而且从去年到现在,它在音频大模型开源上一步一个脚印,不断推出新的成果,显然不是临时起意,而是有长期的战略规划。它就是想借助自身在社交领域积累的场景和数据优势,在音频AI领域开辟新的天地,这步棋走得其实挺有远见。

小红书这么做,带来的影响最直接的就是降低了音频AI行业的准入门槛,以前,中小开发者和企业想做音频相关产品,要么得自己花大价钱研发技术,要么就得依赖那些闭源方案,成本高、周期长。

现在有了小红书开源的这些模型,他们能直接拿来用,大大缩短了产品周期,也降低了成本。就像有些开发者基于FireRedTTS-2,开发出了儿童故事定制工具,克隆家长的声音给孩子讲故事,既温馨又有市场。

还有团队用FireRedASR做了适用于老年人的语音助手,支持方言交互,解决了老年人使用智能设备的一大难题。

而且,这还能推动音频AI应用创新,反过来又能扩大小红书主导的开源社区,越来越多的开发者参与进来,在使用模型的过程中,会发现各种问题,也会有新的想法,他们把这些反馈给小红书,又能帮助小红书优化模型。

比如之前FireRedASR在GitHub上收到反馈,说在西南官话识别上精度不够,小红书团队很快就针对这个问题进行了优化,让模型的方言适配能力更强了,这种良性互动,不仅让小红书的音频模型越来越完善,也让它的开源社区越来越有活力。

不过,小红书在这条路上也不是一帆风顺,最让人担心的就是商业化盈利模式的问题,目前它的技术研发主要还是靠内部业务反哺,要是长期找不到可持续的盈利方式,研发投入可能就会受影响。

但换个角度想,开源生态本身就藏着不少商业机会,等生态规模扩大了,或许可以通过提供技术服务、定制化解决方案来赚钱,比如帮企业做私有化部署的技术支持,或者针对特定行业开发专属模型。

虽然短期内可能会有压力,但从长远来看,只要生态能做起来,盈利就不是大问题,而且还能建立起难以复制的竞争优势。

小红书的目标是打造涵盖语音识别、语音生成、语音交互、音乐生成的工业级可商用音频大模型开源社区,成为这个领域的“领头者”。

现在看来,它已经朝着这个目标迈出了坚实的步伐,而且它的这种做法,也给行业树立了一个好榜样,在AI技术逐渐走向封闭的当下,小红书选择开放核心技术,推动技术普惠,这种态度难能可贵。

AI技术的发展从来都不是零和博弈,只有更多人参与进来,才能碰撞出更多创新的火花,整个行业才能更快地发展。

随着小红书音乐大模型FireRedMusic、多语种ASR系统的研发落地,它在音频开源领域的影响力还会进一步扩大。

FireRedMusic要是能实现简单旋律生成、编曲辅助等功能,就能帮到很多缺乏专业能力却想做原创音乐的中小创作者,多语种ASR系统则能为小红书拓展海外市场助力,毕竟语言差异一直是社交平台全球化的一大障碍。

小红书从一个社交平台,跨界成为音频大模型开源领域的佼佼者,这背后是它对技术趋势的敏锐把握,对用户需求的深刻理解,还有对技术普惠的坚定追求。

它的实践告诉我们,在技术快速迭代的时代,打破行业边界,积极开放协作,比固守自己的一亩三分地更能抓住机遇,赢得未来。

科技的价值,从来都不在于垄断,而在于让更多人受益,小红书在音频大模型开源这件事上,就是对这句话最好的诠释。

来源:ho侯神

相关推荐