上海AILab、浙大EagleLab等提出RRVF：利用「验证非对称性」

摘要：就是验证非对称性（Asymmetry of Verification） —— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是：对很多任务而言，验证一个解的好坏，远比从头创造一个解要容易得多。

一个任务有多容易被 AI 解决？最终可能只取决于一个简单的问题：它的答案有多容易被验证？

这，就是验证非对称性（Asymmetry of Verification） —— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是：对很多任务而言，验证一个解的好坏，远比从头创造一个解要容易得多。

这一思想，正是近期从 OpenAI 跳槽至 Meta 的思维链（CoT）开山作者 Jason Wei 在其最新博客中提出的「验证者法则」（Verifier's Law）的基石。他断言：「所有可能被解决且易于验证的任务，都将被 AI 解决。」

为什么？因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性，就相当于为强化学习（RL）创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」（guess-and-check），通过不断的迭代优化，最终逼近最优解。

而这一法则的最佳实践，已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究 RRVF（Reasoning-Rendering-Visual-Feedback），就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。

论文标题：Learning Only with Images: Visual Reinforcement Learning with Reasonin g,Rendering,and Visual Feedback

论文地址：https://arxiv.org/pdf/2507.20766

RRVF：Image2code 的「验证者法则」训练场

在传统 AI 训练中，我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂，而且很多时候限制了 AI 的创造力，例如使用特定的 code 来训练还原 image。

图 1: RRVF vs 通用训练方法，只需输入图片，利用推理、渲染、反馈进行强化学习

RRVF 框架则另辟蹊径，它没有去教模型「怎么做」，而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」（推理 - 渲染 - 视觉反馈），这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统，让模型在「自我纠正」中学习。

图2: RRVF框架图

第一步：迭代式视觉推理 (Iterative Visual Reasoning)

面对一张目标图像（如数据图表），它会进行迭代式多轮思考。在每一轮，模型都会在中先写下自己的思考过程，然后调用外部工具进行渲染和获取反馈，在后续轮次中根据反馈修正自己的代码。

图 3: 迭代视觉推理算法

第二步：视觉反馈 (Visual Feedback)

外部工具（如 Matplotlib 或 Playwright 浏览器）执行代码后，会渲染生成图片。此时，一个更强大的「视觉裁判」模型（论文中使用了 72B 的 Qwen2.5-VL）会介入，对比渲染图和原图，并生成定性的、结构化的自然语言反馈，例如：「图表类型正确，但颜色不匹配」、「网页布局基本正确，但缺少了一个按钮」。这些反馈会作为新的输入，指导模型进行下一轮的代码修正。

第三步：视觉裁判 (Visual Judge) 混合奖励

在整个迭代过程结束后，模型会输出最终的代码。此时，「视觉裁判」会再次出场，但这次它扮演的是「法官」角色，给出一个定量的视觉相似度分数 R_vision。

但仅仅有视觉分是不够的。为了让模型学得更好，研究者设计了混合奖励函数 (Hybrid Reward Design) ：

视觉相似度奖励 (R_vision) ：核心奖励，分数越高奖励越大。

格式正确性奖励 (R_format) ：代码能否跑通？思考和工具调用的格式对不对？如果出错，直接给予惩罚。

工具使用奖励 (R_tool) ：为了鼓励模型探索和使用反馈循环，每次成功的工具调用都会获得少量奖励，直到模型表现得足够好（视觉分超过 0.95）或达到最大次数。

这三个奖励通过加权组合（R = w_v * R_vision + w_f * R_format + w_t * R_tool），构成最终的驱动力。

最后一步：GRPO 算法优化

有了精确的奖励信号，如何高效地更新模型？RRVF 采用了 GRPO（Group Relative Policy Optimization）算法。相比传统的 PPO，GRPO 更高效，它不需要一个独立的价值函数，而是通过对一组（论文中是 8 个）候选答案进行比较和打分，直接优化策略。

这个设计，完美地将一个复杂的「代码生成」任务，转化成了一个极易被验证（视觉相似度）和优化（混合奖励 + GRPO）的工程问题。

图 4：迭代推理的 case，模型一步步学会如何准确重建一张饼图

实验结果：验证的力量，让 7B 模型超越 72B 老师

RRVF 的实验结果，有力地证明了「验证者法则」的力量。模型基于 Qwen2.5-VL-7B 进行训练，并在图表生成（ChartMimic, Plot2Code）和网页生成（WebSight）三个数据集上进行了全面评测。

1. 性能碾压：SFT 学的是「模仿」，RRVF 学的是「理解」

在 ChartMimic 上，传统的监督微调（SFT）虽然有标准代码答案，但执行率只有 69.00%。而 RRVF 在没有任何代码答案的情况下，代码执行率达到了 97.83% ，在其他各项指标上均有明显提升。这证明了 RRVF 真正理解了图像的结构，而非死记硬背。

2. 「学生」超越「老师」：自学习效应的惊人体现

出乎意料的是，通过 RRVF 训练的 7B 模型，最终的综合得分（64.36）不仅远超其基础模型（38.17），甚至超越了在训练中为它提供反馈和评分的、更强大的 72B 模型（47.30）。这证明 RRVF 不是简单的知识蒸馏，而是让模型在自我探索中发现了比「老师」更优的策略，实现了能力的「进化」。

3. 泛化能力：真学霸从不畏惧新考卷

为了考验模型是否真的学到了通用能力，研究者在未训练的 Plot2Code 数据集上进行了零样本测试。结果显示，SFT 模型性能急剧下降（例如执行率从 69% 暴跌至 49%），暴露出其「偏科」和「过拟合」的本质。

相比之下，RRVF 模型的执行率几乎没有衰减（例如执行率从 97.83% 稳定在 96.21%）。这强有力地证明，通过视觉反馈学习到的，是可迁移的、底层的视觉到代码的生成逻辑。

这项研究是「验证者法则」的一次响亮宣告。它告诉我们，未来 AI 发展的瓶颈，可能不在于模型本身有多大，而在于我们能否为 AI 想解决的任务，设计出足够简单、高效的「验证环境」。

一旦我们学会了如何将复杂问题转化为易于验证的问题，那么正如 Jason Wei 所预言的，一个智能的「锯齿状前沿」将会出现：在所有可被清晰验证的领域，AI 将展现出超乎想象的强大能力。

来源：晚晚的星河日记一点号

标签：浙大 eagle ailab rrvf 浙大eaglelab

本文地址：http://news.43b.com.cn/a/723438.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!