摘要:面壁智能于日前举行的2025智源大会上发布了新一代「面壁小钢炮」MiniCPM4.0端侧模型发布。一款8B稀疏闪电版,带来端侧性能创新式大跃升;一款0.5B实力演绎以小博大,适配广泛终端场景。
首个系统级上下文稀疏化高效创新模型。
本文为IPO早知道原创
作者|Stone Jin
据IPO早知道消息,面壁智能于日前举行的2025智源大会上发布了新一代「面壁小钢炮」MiniCPM4.0端侧模型发布。一款8B稀疏闪电版,带来端侧性能创新式大跃升;一款0.5B实力演绎以小博大,适配广泛终端场景。
值得一提的是,第四代小钢炮推出了首个原生稀疏模型,5%的极高稀疏度加持系统级创新技术的大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来;220倍极限加速,一半参数翻倍性能的表现,则继续带来端侧基模最极致表现。
具体来讲,面对此前端侧模型长文本「龟速推理」业界难题,MiniCPM 4-8B「闪电稀疏版」,采用了新一代上下文稀疏高效架构,相较于同等参数规模端侧模型实现了长文本推理速度5倍常规加速以及最高220倍加速(显存受限极限场景下测出),真正让端侧模型长文本推理实现了「快如闪电」的质变。此外,注意力机制上实现了高效双频换挡,长文本用稀疏,短文本用稠密,切换快如流。
同时,MiniCPM 4.0推出端侧性能“大小王”组合,拥有8B 、0.5B两种参数规模,延续「以小博大」特性,实现了同级最佳的模型性能。其中,MiniCPM 4.0-8B模型为稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩Qwen-3-8B,超越Gemma-3-12B。MiniCPM 4.0-0.5B在性能上相较更大的Qwen-3-0.6B、Llama 3.2, 仅2.7%的训练开销,一半参数性能翻倍,并实现了最快600 Token/s的极速推理速度。
此外,MiniCPM 4.0持续卫冕全球最强端侧模型,并进一步实现了长文本缓存的大幅锐减,在128K长文本场景下,MiniCPM 4.0-8B相较于Qwen3-8B仅需1/4 的缓存存储空间。量化版高达90%的模型瘦身,性能依然十分稳健。在速度、性能飙升的同时,又做到了模型极致压缩,让端侧算力不再有压力。
在应用上,端侧长文本的突破带来更多可能。基于8B版本,面壁智能团队微调出两个特定能力模型,分别可以用做MCP Client和纯端侧性能比肩Deep Research的研究报告神器MiniCPM4-Surve。
截至目前,MiniCPM 4.0已实现 Intel、高通、MTK、华为昇腾等主流芯片的适配,并可在vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等开源框架部署。同时加强了对MCP的支持,且性能超过同尺寸开源模型,进一步拓展了模型开发、应用潜力。
整体而言,本次MiniCPM 4.0的发布,是面壁智能持续探索高效大模型道路上的又一重要里程碑,通过多维度、高密度的优化,真正做到行业唯一的端侧可落地的系统级软硬件稀疏化高效创新。截至目前,面壁小钢炮MiniCPM系列全平台下载量累计破1000万。未来,面壁智能还将基于「大模型密度定律Densing Law」,持续提高大模型的知识密度与智能水平,推动端侧智能高效发展与规模化产业应用。
来源:IPO早知道