摘要:以8B的参数量,在多项核心评测中全面超越GPT-4o-latest、Gemini-2.0 Pro,甚至干过了Qwen2.5-VL 72B。
26日,OpenBMB团队扔出了一颗深水炸弹——MiniCPM-V 4.5。
面壁小钢炮,再次让我眼前一亮。
以8B的参数量,在多项核心评测中全面超越GPT-4o-latest、Gemini-2.0 Pro,甚至干过了Qwen2.5-VL 72B。
对,你没看错。8B,打赢了72B。
这意味着什么?端侧多模态模型的天花板,被彻底掀翻了。
MiniCPM-V 4.5是目前开源社区中同参数性能最强的端侧多模态模型,没有之一。
在OpenCompass综合评测的8大权威基准中,它拿到了77.0的平均分。
同性能的模型动不动就是百亿级甚至千亿级规模,而MiniCPM-V 4.5却轻巧得能跑在iPad上。
这背后没有玄学,全是实打实的技术突破。
MiniCPM-V 4.5在视频理解方面几乎是一骑绝尘。
它采用了一种叫做统一3D重采样器(Unified 3D-Resampler) 的新架构。说人话就是:能把6帧448x448的视频帧压缩到仅64个token。
对比一下,传统方法处理同样6帧需要1536个token。而MiniCPM-V 4.5做到了96倍的压缩率。
这是什么概念?意味着你可以在不增加计算成本的前提下,让模型“看”到更多帧、更长的视频。于是——
高刷新率视频理解(支持10FPS)长视频理解(Video-MME、LVBench、MLVU等榜单屠榜)极高效的推理效率以往你要处理一段2分钟的视频,可能光token开销就让你肉疼。
如果说视频理解是亮点,那OCR和文档解析就是它的“基本盘”——强得离谱。
基于LLaVA-UHD架构,MiniCPM-V 4.5可以处理最高1344x1344分辨率、任意比例、最高180万像素的图像,并且视觉token消耗比主流MLLM少4倍。
结果就是:
OCRBench上超越GPT-4o-latest、Gemini 2.5OmniDocBench上达到通用MLLM中的SOTA性能能准确解析复杂表格、手写字体、扫描版PDF它甚至能根据图像中文字的可见程度,自适应地切换模式:文字清晰时就做OCR识别,文字模糊时就靠多模态上下文进行推理补全。
也就是说,不管你的文档是高清扫描版还是手机随便拍的糊图,它都能处理。
你有没有遇到过这种场景:
有时候只想让AI快速回答一个问题,不想等有时候又希望它深度推理,多花点时间也没关系MiniCPM-V 4.5这次直接给你两个模式切换:
Fast Thinking:日常高效使用,响应速度快Deep Thinking:复杂任务深度推理,效果更强而且这两个模式是通过多模态强化学习联合优化的,不是简单的“调参版”和“完整版”的区别。也就是说,快模式不会牺牲太多性能,深模式也不会慢到不能用。
这种设计哲学真的很人性化。毕竟谁也不想在查菜谱的时候等10秒,也不想在解数学题的时候被敷衍。
甚至他们在iPad M4上做了原生适配,演示视频录屏无剪辑——流畅得不像开源模型。
看看下面这些应用场景,是不是感觉“这下爽死了”。
旅游拍照发小红书
手写“狂草”识别
再也不用担心不会做的题了
能做到这样的性能,不是偶然。MiniCPM-V 4.5在三个层面做了深度创新:
统一3D-Resampler架构彻底解决了视频理解中的效率-性能权衡问题,让模型能“看得又多又准”。
动态文本破坏训练通过随机模糊文档中的文字区域,让模型学会在“OCR模式”和“知识推理模式”之间智能切换。不再依赖容易出错的文档解析器,也减少了幻觉现象。
混合强化学习优化让快思考和深思考两个模式能协同进化,而不是彼此牺牲。
等不及了吗,这是全部版本汇总:
在手机上看视频问AI、手写笔记实时转电子档、对着复杂表格直接提问分析……
这一切,已经开始了。
论文地址: https://github.com/OpenBMB/MiniCPM-V
来源:算泥社区