摘要:然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
Pixel Reasoner 团队 投稿
量子位 | 公众号 QbitAI
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。
当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
来自滑铁卢大学、港科大、中科大的研究团队,首次将推理战场从文本空间拓展到像素空间,提出「像素空间推理」(Pixel-Space Reasoning)范式。
这项突破让VLM能像人类一样「眼脑并用」:通过原生视觉操作直接与视觉信息对话,在像素级精度上解锁视觉理解的新维度。
传统VLM如同带着「文本滤镜」看世界:将图像翻译成文本token再推理,导致小字体、隐蔽物体等关键信息在转换中丢失。而「像素空间推理」赋予模型「视觉手术刀」般的能力:
视觉主动操作:模型可自主触发视觉变焦(放大关键区域)、时空标记(定位视频动态线索)等原生操作,在像素矩阵上直接完成「操作 - 分析 - 推断」的闭环推理,避免了文本转译导致的信息衰减。视觉主导推理:视觉操作成为推理演进的核心驱动力。例如图例中,回答「咖啡杯 logo 品牌」时,模型先通过空间先验定位桌面区域,再通过视觉放大逐行扫描杯身,最终在像素级精度上提取 logo 特征。这种「视觉线索引导推理」的机制,使模型能捕捉传统方法难以处理的空间关系与动态细节,尤其在具身视觉导航、复杂视频理解等场景中展现出显著优势。这种「眼脑协同」的推理模式,打破了文本对视觉语义的「翻译牢笼」,让模型真正具备了与人类视觉认知同构的推理能力。
在能力迁移过程中,研究团队发现指令微调模型仍面临「认知惰性」带来的严峻挑战:成熟的文本推理能力与稚嫩的像素操作能力形成能力鸿沟,导致模型陷入「学习陷阱」:
1 负面反馈循环:初期视觉操作的低成功率引发大量负向信号,抑制模型使用新能力的意愿;
2 路径依赖惯性:简单任务中模型更倾向调用已掌握的文本推理,形成「新能力退化」的恶性循环。
如同熟练的滑雪者初次尝试冲浪,初期的失衡体验会让人本能回归熟悉领域,而忽视新技能的长期价值。
为打破这一困境,研究团队设计了内在好奇心激励配合外在正确性激励的强化学习奖惩方案。通过引入内在激励鼓励模型练习视觉操作,并引导模型逐步挖掘「像素空间推理」的潜在价值,而非仅依赖外在的正确性奖励。这就像幼儿学步时,对新鲜动作的内在好奇会驱动其反复尝试,即使每次尝试都伴随着跌倒。
因此,研究团队形式化出下面的约束优化目标
其中包含两个关键约束用于有效激发「像素空间推理」
像素推理率约束(RaPR):要求模型至少以特定比率触发像素空间推理,克服认知惰性;操作效率约束:限制单次推理的视觉操作次数,在探索与计算成本间找到平衡。通过拉格朗日松弛等效转化为以下的奖励函数:
其中的内在好奇心激励(r_curiosity)会在模型低频触发「像素空间推理」时提供内在激励,如同为探索未知领域的冒险者提供「勇气加成」,降低尝试新能力的机会成本。同时,随着训练推进,好奇心奖励会动态衰减,确保模型最终聚焦于推理效率而非奖励投机,形成「好奇驱动」到「效用驱动」的良性过渡。
在四大视觉推理基准测试中,基于Qwen2.5-VL-7B构建的Pixel-Reasoner展现出碾压级表现:
V* Bench(高清图像推理):84.3%准确率,超越GPT-4o(62.8%)和Gemini-2.5-Pro(79.2%)。TallyQA-Complex(复杂场景计数):73.8%准确率,较基线模型提升5.1%,能精准区分图像中相似物体的数量差异。InfographicsVQA(信息图表理解):84.0%准确率,在混合文本与图表的复杂场景中,推理准确率达到Gemini-2.5-Pro水平。MVBench(长视频推理):67.8%准确率,通过像素空间的时空操作捕捉视频中的关键视觉线索,时序推理能力领先GPT-4o 3.2%。值得注意的是,仅7B参数的Pixel-Reasoner,性能全面超越27B的Gemma3等开源模型,甚至媲美部分闭源商业模型,展现出「小模型大能力」的高效特性。
此外,研究团队也进行了细节的实验来分析模型「认知惰性」带来学习新推理能力的「学习陷阱」,为如何有效培养模型全新推理能力提供了深刻的启示。
研究团队指出,像素空间推理并非对文本推理的替代,而是为VLM开启了「第二思维通道」。当视觉与语言双轨并行,多模态模型才能真正理解世界的复杂性。
Pixel-Reasoner尚且是多模态推理范式的初步探索。从「看山是山」到「见微知著」,随着多模态推理能力的进一步发展,我们正迎来一个机器能「看得更细、想得更深」的智能时代。
论文地址:https://arxiv.org/pdf/2505.15966
项目主页:https://tiger-ai-lab.github.io/Pixel-Reasoner/
模型试玩:https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner
来源:量子位一点号