面壁小钢炮4.0发布：最高220倍提速，开启端侧长文本时代

摘要：面壁智能于日前举行的2025智源大会上发布了新一代「面壁小钢炮」MiniCPM4.0端侧模型发布。一款8B稀疏闪电版，带来端侧性能创新式大跃升；一款0.5B实力演绎以小博大，适配广泛终端场景。

首个系统级上下文稀疏化高效创新模型。

本文为IPO早知道原创

作者｜Stone Jin

据IPO早知道消息，面壁智能于日前举行的2025智源大会上发布了新一代「面壁小钢炮」MiniCPM4.0端侧模型发布。一款8B稀疏闪电版，带来端侧性能创新式大跃升；一款0.5B实力演绎以小博大，适配广泛终端场景。

值得一提的是，第四代小钢炮推出了首个原生稀疏模型，5%的极高稀疏度加持系统级创新技术的大爆发，让长文本、深思考在端侧真正跑起来，宣告了端侧长文本时代到来；220倍极限加速，一半参数翻倍性能的表现，则继续带来端侧基模最极致表现。

具体来讲，面对此前端侧模型长文本「龟速推理」业界难题，MiniCPM 4-8B「闪电稀疏版」，采用了新一代上下文稀疏高效架构，相较于同等参数规模端侧模型实现了长文本推理速度5倍常规加速以及最高220倍加速（显存受限极限场景下测出），真正让端侧模型长文本推理实现了「快如闪电」的质变。此外，注意力机制上实现了高效双频换挡，长文本用稀疏，短文本用稠密，切换快如流。

同时，MiniCPM 4.0推出端侧性能“大小王”组合，拥有8B 、0.5B两种参数规模，延续「以小博大」特性，实现了同级最佳的模型性能。其中，MiniCPM 4.0-8B模型为稀疏注意力模型，在MMLU、CEval、MATH500、HumanEval等基准测试中，以仅22%的训练开销，性能比肩Qwen-3-8B，超越Gemma-3-12B。MiniCPM 4.0-0.5B在性能上相较更大的Qwen-3-0.6B、Llama 3.2, 仅2.7%的训练开销，一半参数性能翻倍，并实现了最快600 Token/s的极速推理速度。

此外，MiniCPM 4.0持续卫冕全球最强端侧模型，并进一步实现了长文本缓存的大幅锐减，在128K长文本场景下，MiniCPM 4.0-8B相较于Qwen3-8B仅需1/4 的缓存存储空间。量化版高达90%的模型瘦身，性能依然十分稳健。在速度、性能飙升的同时，又做到了模型极致压缩，让端侧算力不再有压力。

在应用上，端侧长文本的突破带来更多可能。基于8B版本，面壁智能团队微调出两个特定能力模型，分别可以用做MCP Client和纯端侧性能比肩Deep Research的研究报告神器MiniCPM4-Surve。

截至目前，MiniCPM 4.0已实现 Intel、高通、MTK、华为昇腾等主流芯片的适配，并可在vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等开源框架部署。同时加强了对MCP的支持，且性能超过同尺寸开源模型，进一步拓展了模型开发、应用潜力。

整体而言，本次MiniCPM 4.0的发布，是面壁智能持续探索高效大模型道路上的又一重要里程碑，通过多维度、高密度的优化，真正做到行业唯一的端侧可落地的系统级软硬件稀疏化高效创新。截至目前，面壁小钢炮MiniCPM系列全平台下载量累计破1000万。未来，面壁智能还将基于「大模型密度定律Densing Law」，持续提高大模型的知识密度与智能水平，推动端侧智能高效发展与规模化产业应用。

来源：IPO早知道

标签：模型 llama mcp 面壁 minicpm

本文地址：http://news.43b.com.cn/a/571862.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!