摘要:近来,强化学习范式在语言生成和推理模型领域得到了广泛的应用,其中具有代表性的是DeepSeek提出的GRPO (Group Relative Policy Optimization) [1]算法。GRPO是一种基于群体对比的强化学习算法,专为训练大型生成模型(
文章链接: https://arxiv.org/abs/2506.14821
近来,强化学习范式在语言生成和推理模型领域得到了广泛的应用,其中具有代表性的是DeepSeek提出的GRPO (Group Relative Policy Optimization) [1]算法。GRPO是一种基于群体对比的强化学习算法,专为训练大型生成模型(如大语言模型和视觉-语言模型)而设计。它通过让模型生成的多个响应相互竞争比较,从而学习更优的策略。
其核心思想是:一个响应的优劣,不应由绝对奖励值单独决定,而应通过与同批次其他响应的相对比较来判断。GRPO 是对PPO(Proximal Policy Optimization)[2] 的扩展,GRPO的损失函数建立在标准 PPO的基础上,但引入了群体比较的概念。具体而言,给定输入 ,策略模型采样 条轨迹 ,并计算奖励 。每条轨迹的相对优势定义为:
最终的优化目标类似于 PPO,但以组内相对优势为更新信号:
与 PPO 相比,GRPO 不依赖单一轨迹的值函数估计,而是利用组内对比增强了训练信号,因而特别适合解决多模态推理中工具调用等探索性强的任务。
本文提出了一种利用强化学习整合外部工具的VLM框架,框架的整体流程图如下所示。与仅依赖提示(图中左侧)难以捕捉高分辨率图像细节的基线模型不同,本方法通过强化学习驱动 VLM 主动调用 zoom-in 工具,从特定感兴趣区域(ROI)提取补充信息,以提升对视觉导向问题的回答准确性。同时,对输入图像进行适度缩放既提高了训练效率,又保留了模型可感知的关键视觉细节。
本文方法的完整工作流程具体包括以下三个阶段:
(1)输入:模型首先接收下采样后的整幅图像以及任务问题(如 “From the information on that advertising board, what is the type of this shop?”)。此时,模型需要判断是直接基于低分辨率图像回答,还是调用外部工具以获取额外细节。当问题涉及细粒度视觉信息(例如需读取广告牌上的文字以推断商店类型)时,模型会生成带有 “Let's use the zoom tool to zoom in on the advertising board” 的推理轨迹,并通过符合 YAML 格式 的〈tool〉标签输出工具调用请求,指定预测的关键点坐标(如 [1015, 710])。
(2)工具调用:外部 zoom 工具接收到坐标后,在原始高分辨率图像上执行操作。以预测的关键点坐标为中心裁剪出一个 400×400 像素区域,并将其上采样至与下采样全图相同的输入尺度(如1024 像素)。随后,该高分辨率裁剪块被作为新的视觉 token 注入到对话上下文中,使模型同时具备两类视觉输入:提供全局场景信息的原采样图像和新注入的、能够提供细节信息的高分辨率局部特写图像。
(3)推理与回答生成:在双重视觉上下文的支持下,模型能够联合利用全局语义与局部细节完成推理,从而识别出此前在低分辨率下难以分辨的信息。最终,模型通过〈answer〉标签生成并输出正确答案。
2.2 训练策略:奖励设计在训练过程中,模型的工具调用行为与最终回答质量通过结构化奖励函数加以联合优化。作者设计了一个复合奖励机制,将整体奖励分解为若干子项,从而为模型提供更加细致且密集的学习信号。其总奖励可形式化表示为:
奖励由三个部分组成, , , 分别是答案正确性奖励、格式正确性奖励和工具使用奖励。 , , 是用于平衡各项权重的超参数。
(1)答案正确性奖励 : 本身也是一个复合奖励,结合了“硬”奖励和“软”奖励,以更平滑地处理答案的对错边界情况,形式化为:
本文使用标准的VQA得分计算硬奖励 ,计算方式为: 。对于软奖励 ,本文计算模型的答案与所有标准答案中最接近的三个答案的平均编辑距离,并进行归一化。
(2)格式正确性奖励 :是一个二进制奖励。当模型生成的响应完全符合指定的格式要求时,则获得奖励;否则没有奖励。
(3)工具使用奖励 :是一个二进制奖励。只要模型成功发起了有效的工具调用(无论其调用的区域是否与问题相关),就能获得一个小额的固定奖励。
2.3 GRPO的优化目标通过上述流程,可以分析得到,GRPO的优化本质上是让模型学会一种条件策略。当问题需要依赖局部细节信息才能作答时(复杂问题场景),模型获得高奖励的最优策略是正确调用工具(格式规范)并最终给出正确答案。相反,若未调用工具或调用后仍答错,则对应的奖励为负,从而在训练中被抑制。当问题可以仅依赖全局上下文直接解答时(简单问题场景),模型获得高奖励的最优策略是不调用工具并正确回答。此时,工具调用被视为不必要的额外操作,会设置低奖励值,抑制其操作。
本文从域内与域外两个维度对方法进行评估。域内在 TextVQA 数据集上检验推理能力,采用 VQA 分数作为评价指标。域外则使用 Bench 和 HR-bench 两个基准。 Bench 数据集的图像平均分辨率为 2246×1582,包含属性识别(Attr.)与空间关系(Spatial)子任务,用于考察模型对细粒度视觉细节的泛化能力。HR-bench 提供 4K 与 8K 变体,包含单实例(FSP)与跨实例(FCP)感知子任务,用于检验模型在超高分辨率场景下的极限性能与可扩展性。为了提高模型效率,本文在 TextVQA 数据集的训练数据子集上使用 GRPO 训练了一个小型 Qwen2.5-VL-3B-Instruct 模型。
3.1 定量分析作者首先与SOTA方法进行对比,结果如下表所示,本文方法在不同基准上展现出差异化的性能表现。与 Qwen2.5-VL-3B 基线相比,模型在 Bench 上整体准确率提升了 5.7%,其中在空间关系推理子任务上的增幅尤为显著,达到 13.1%。
然而,在 Bench 上的优势并未延伸至更高分辨率的任务(HR-Bench 4K 与 8K),模型在这些场景中未能取得明显提升。作者推测其原因在于训练与推理阶段的分辨率差距,导致强化学习策略在跨分辨率迁移时的泛化能力受限。因此,未来工作有必要在训练过程中引入更高分辨率图像,以有效弥合这一差距。
3.2 定性分析随后作者也对强化学习训练过程的轨迹进行了定性分析。下图展示了结构化奖励在引导模型学习有效工具使用策略中的作用。结果显示,成功调用工具并正确回答问题的轨迹(橙色)持续获得正向优势,表明该行为被模型稳定捕捉并不断强化。
相较之下,失败的工具调用和未调用工具的响应均呈现负优势,且后者更为显著。这一结果表明,所设计的奖励结构能够提供清晰而有效的优化信号,从而促使模型在高分辨率细节理解任务中逐步形成更优策略。
上图展示了不同推理分辨率对模型性能的影响。结果表明,经强化学习优化的 VLMs 即使在推理阶段仅接收下采样的低分辨率图像,性能仍能显著提升,从而验证了方法的有效性与鲁棒性。更为关键的是,在计算资源受限、输入分辨率受限的情况下,本文方法依然能够通过调用始终基于原始高分辨率图像的 zoom 工具主动获取关键信息,从而维持较优的推理表现。
本文提出了一种基于强化学习的小规模 VLM 工具使用框架,用于指导小规模VLMs学习使用工具。具体来说,本文首次成功地将GRPO引入视觉-语言模型的工具学习场景,使模型能够在没有人工轨迹标注的情况下,通过与环境的交互自主学习何时以及如何使用工具。此外,本文也提出了一套面向资源受限条件的工程化训练pipeline,包括简洁的工具接口、裁剪与上采样策略、结构化奖励函数设计及稳定性优化措施,使得 3B 级别模型也能高效学习工具使用。在 Bench 等高分辨率细粒度数据集上的实验结果也表明,本文方法可以显著提升小规模模型性能。这也为资源比较受限的一些开发者带来了一些新的尝试方向,可以引入基于强化学习策略的工具调用来弥补小规模模型的性能劣势。
[1] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024.
[2] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
来源:鑫鹏教育