摘要:字节跳动、阿里巴巴、百度,几乎每一家中国头部科技公司都在2025年下半年投入巨资开发AI大模型。IDC最新调查显示,2025年中国AI大模型市场规模已突破270亿元人民币,同比增速高达87%。就在各路巨头激战之际,音频领域出现剧烈变局——小红书以“全链路开源”
字节跳动、阿里巴巴、百度,几乎每一家中国头部科技公司都在2025年下半年投入巨资开发AI大模型。IDC最新调查显示,2025年中国AI大模型市场规模已突破270亿元人民币,同比增速高达87%。就在各路巨头激战之际,音频领域出现剧烈变局——小红书以“全链路开源”模式,成为中国音频大模型领域出人意料的主角。
2024年中以来,AI开源成为技术圈最热话题,但热度背后,音频领域始终被视作“冷门”。据Hugging Face社区数据,2024年7月和8月,国内AI厂商分别开源了33款和31款大模型,音频模型仅占极小比例。音频建模难在信号连续、高维、数据获取难度大,且涉及复杂的版权和安全问题。国际主流玩家如OpenAI、ElevenLabs都倾向闭源,音频AI看似离开源很远。
而2025年9月,公开数据统计显示中国AI音频开源项目数量同比去年增长了近五倍,主力竟然不是公认的AI大厂,而是内容社区小红书。FireRed系列模型的GitHub数据和论文被Nature等权威媒体引用,全球开发者的关注度持续飙升。
国内AI音频领域的玩法正悄然变化。2023年9月,小红书技术团队率先开源FireRedTTS语音合成系统,独特的“基座-应用”分层架构,允许开发者用极少的数据,快速模仿任意音色。2024年2月,FireRedASR上线,字错率3.05%直接刷新中文普通话语音识别纪录,领先行业标杆。
2024年下半年,FireRedTTS-2与FireRedChat两款升级产品接连开源。FireRedTTS-2首次将多说话人对话和zero-shot播客生成能力带入开源社区,音色切换、韵律自然度达到工业级水准。FireRedChat则被称为行业首个全双工语音对话开源系统,情绪识别、Dify集成等模块一站式打包,门槛极低,甚至非语音专业开发者也能快速部署。
有别于传统只开模型不开放全链路方案的做法,FireRed系列为开发者提供了VAD(语音活动检测)、ASR(自动语音识别)、TTS(文本转语音)、对话管理、音频LLM等全流程,私有化部署和定制化开发能力被大幅拉升。GitHub平台数据显示,FireRedASR和FireRedTTS-2代码库2025年9月的star数量均突破2000,成为开源音频领域当之无愧的流量中心。
小红书的技术布局并非停留在模型层面,而是向体系化能力延伸。FireRedChat的全双工语音交互能力已在小红书App内测,语音评论、播客自动生成、方言模仿等功能持续上线。与传统AI音频产品不同,小红书强调“开箱即用”,降低了企业和中小团队的技术门槛。
IDC2025年9月报告指出,音频AI的应用场景正快速向社交、教育、医疗等行业渗透。小红书的开源策略加速了AI音频在内容创作、语音助手、虚拟人、智能硬件等领域的产业化进程。去年至今,已有超过300家创业公司基于FireRed模型进行二次开发,部分项目已获融资和落地合作。
小红书团队透露,未来半年将继续推进FireRedMusic、FireRedASR-2等多语种、音乐生成等新模型开源,力求建立面向全球开发者的音频AI开源社区。这一战略让小红书成为国内首家覆盖TTS、ASR、全双工对话、音乐生成等全场景的音频大模型生态平台。
音频AI领域的主导权争夺,已从单打独斗走向生态级竞争。小红书的全链路开源体系,带动了中国AI音频开发者的“破圈”,形成开放协同、创新共进的新格局。FireRed系列不仅为开发者提供了丰富的技术基座,还降低了中小企业的试错成本,加速了AI音频能力的下沉和普及。
2025年9月,清华大学人工智能研究院发布的《AI音频开源创新指数》显示,基于小红书FireRed生态的开发者占国内音频AI创新项目总量的38%,远超行业平均水平。小红书的开源实践成为推动音频AI普惠化和产业升级的关键变量。
伴随全球AI监管政策趋严,开源模式在合规、数据安全、商业创新之间寻找平衡。小红书通过GPL、Apache等多种许可证,有效保障了模型的可商用性和开发者权益,为AI音频生态的可持续发展提供了制度基础。
来源:钦点历史