摘要:在日常科研和数据分析中,图表往往比文字更能直观表达规律与关系。但让AI真正读懂这些结构化图像仍是一项挑战。对此,微软亚洲研究院联合清华大学、香港科技大学提出了PixelCraft,通过“高保真视觉处理”与“非线性多智能体推理”两大核心机制,让大模型在图表、几何
编者按:在日常科研和数据分析中,图表往往比文字更能直观表达规律与关系。但让AI真正读懂这些结构化图像仍是一项挑战。对此,微软亚洲研究院联合清华大学、香港科技大学提出了 PixelCraft,通过“高保真视觉处理”与“非线性多智能体推理”两大核心机制,让大模型在图表、几何草图等结构化图像理解中实现了显著突破。
本文转载自量子位,原标题为《大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”》
多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。
为此,微软亚洲研究院联合清华大学、香港科技大学提出 PixelCraft:以高保真图像处理与非线性多智能体推理为两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
论文链接:https://arxiv.org/pdf/2509.25185
自然图像通常凭借纹理、局部模式等特征即可完成理解;而结构化图像则把信息编码进坐标、数据点、连线与数值标注,要求模型在像素级细节上建立可验证的“符号化抽象”。
在这样的场景中,传统只依赖文字 CoT 的方式往往牺牲了空间与结构细节。
“视觉 CoT”虽然尝试插入中间图像线索,但受制于低保真的图像处理和简单的线性处理链条,这类方法在应对复杂真实问题时效果有限,这一局限性也在 CharXiv、ChartQAPro 等更贴近真实场景的基准上得以体现。而 PixelCraft 将这一问题拆成两端:先把“看准”做扎实,再让“思考”更灵活。
高保真视觉处理
研究员们在高质量标注数据上对大语言模型进行微调,得到了像素级 grounding 模型,可以将目标区域的文本指代精准映射到像素级坐标区域。
以此为锚,系统通过工具代理调用一组标准化的传统 CV 操作(如裁切、放大、按图例遮挡、辅助线标注等),使中间编辑步骤可验证、可复现,为后续推理提供稳定证据。
系统的工具并非静态预设,而是通过自动生成—标准化—调用的闭环形成:系统基于任务样本由大模型生成候选工具,经聚类与重写后作为工具库备用(一些具体的工具处理示例如下图所示)。
子图裁剪
局部放大
带图例的数据绘制
添加辅助线
随后结合 grounding 坐标与调度/规划策略,实现精确、可重复、可回溯的工具调用。
在讨论式推理中,工具按需被动态选择与复用,从而把“看准”(定位与编辑的准确性)与“能做”(可执行操作)有效衔接。
在合成与标注评测集上,微调后的 grounding 在子图区域、图例区域、文本标签与刻度点的 IoU/PCK 指标均较基础模型有显著提升。
保持智能体系统的基座模型不变,切换不同 grounding 模型会传导至下游基准(如 CharXiv、ChartQAPro 等)的最终精度,说明定位质量对整体性能具有关键影响。
由此,“高保真定位+工具闭环”有效减少了由“截错/标错”引起的误差传播。
非线性、多角色的“讨论式推理”
PixelCraft 的讨论式流程由规划器统筹:先选择合适的工具与角色,随后规划器根据当前上下文按需选择下一角色及其输入(图像或文本),并角色间传递中间结果。
推理过程中由视觉评审判定图像处理是否满足目标,再由规划评审事后复盘整条链路,必要时触发再规划再推理。
与“只在上一张图上继续”的线性链不同,图像记忆让规划器能在讨论中主动回看早期证据、尝试备选分支、修订假设。
这一“discussion-centric workflow”在结构化图像场景中尤显必要:细节一旦出错,应尽快止损并回溯而不是被动前行。
在三个具有挑战性的图表理解基准 CharXiv/ChartQAPro/EvoChart 上,PixelCraft 在 GPT-4o 等大模型的基础上取得了大幅提升,且跨模型表现一致。
消融实验显示,可靠的图像编辑+在环校验+事后复盘共同支撑了系统的稳定性与可解释。
研究员们还构造了和常规 VisualCoT 的对照,把历史中间图像全部并入上下文、让模型在线性链里“带图思考”。结果显示,在 CharXiv 与 ChartQAPro 上,简单的 VisualCoT 结果明显低于 PixelCraft 的范式。这从正反两面印证了,不是“把图都塞进去”就能解决问题,选择性记忆+讨论式回溯才是更有效的组织方式。
工具层面,图表类的子图裁切、局部放大、辅助线标注、按图例遮挡覆盖了大多数分析操作。几何类的点连线、作垂线/平行线为推理提供了“草图级”证据。论文给出了工具使用频率与单项贡献的统计,也展示了多种具体处理案例。
PixelCraft 提出了一条面向结构化图像的半自动化新范式,包含工具制造、工具选择、工具调用、过程修改。先以像素级 grounding 把证据找准,再把证据交给“工具化的双手”去做可验证的编辑,最后在规划器主导的讨论式流程中组织推理,并用图像记忆贯穿回溯与分支探索。
通过这一整套设计,系统在多个 benchmark 上取得了跨模型一致的提升,且中间过程清晰可检。对图表、几何等结构化图像而言,PixelCraft 显著提升了模型推理的准确性和鲁棒性,为未来多模态智能体的可靠推理奠定了方法学基础。
来源:微软亚洲研究院一点号
