科学家开发贝叶斯自适应强化学习框架,有望用于编程和智能体等

B站影视 日本电影 2025-06-28 16:16 1

摘要:他们提出了贝叶斯自适应强化学习(BARL,Bayes-Adaptive Reinforcement Learning)方法,首次从理论层面揭示大模型反思的底层动因、实施路径及触发时机,并构建了一套具有实操性的指导框架。该框架通过直观的决策机制,明确指导模型在何

当大模型面对数学题反复“纠结”时,这种反思行为究竟是有效探索还是无效模式?

针对这一核心问题,美国西北大学与谷歌、谷歌 DeepMind 团队在最新合作研究中给出了系统性解答。

他们提出了贝叶斯自适应强化学习(BARL,Bayes-Adaptive Reinforcement Learning)方法,首次从理论层面揭示大模型反思的底层动因、实施路径及触发时机,并构建了一套具有实操性的指导框架。该框架通过直观的决策机制,明确指导模型在何时需要反思、如何开展反思以及为何必须反思。

BARL 算法的创新性主要体现在三个方面:

首先,它采用线性化 N 选最优(linearized best-of-N)的机制,引导模型通过整合多候选策略逐步淘汰次优方案;其次,其核心突破在于将大模型推理建模为贝叶斯自适应马尔可夫决策过程(MDP,Markov Decision Process),使模型能够在不确定环境中动态维护“假设后验分布”;最后,该算法建立了完整的“反思-验证”闭环系统。

以数学解题为例,BARL 会首先生成不同解题思路的多个候选策略,然后根据环境反馈(如步骤正确性)实时更新假设分布,最终收敛到最优解。这个过程类似于侦探破案:每获得一个新线索(反馈)就排除部分嫌疑人(错误策略),通过持续迭代逐步逼近真相(正确解法)。

在数学推理任务中,BARL 在多个基准测试中均优于传统的马尔可夫决策过程算法。例如,在使用 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B 和 R1-Distill-Llama-8B 等不同大模型进行测试时,在多个基准测试中显著提升 token 效率:比基于进度奖励的强基线(Progress Reward Baseline)少用 39%,比 GRPO 算法少用 50%,比 Qwen2.5-Math-1.5B 基础模型少用 90% 以上的冗余计算。

表丨三次独立训练运行准确率的平均值与标准差(来源:arXiv)

这项研究为 AI 系统的决策优化开辟了新路径。可以预见,未来的智能助手有望能够像人类专家一样,在解题时快速排除错误思路,在编程时根据测试反馈动态调整代码——这种类人的“反思智慧”正是源于 BARL 框架。该研究不仅为大模型反思的效率问题提供解决方案,更为构建具备持续自我优化能力的 AI 系统提供了方法论基础。

日前,相关论文以《超越马尔可夫框架:基于贝叶斯自适应强化学习的大语言模型推理反思性探索》(Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning)为题发表在预印本网站 arXiv 上 [1]。西北大学博士生张申傲是第一作者,谷歌研究科学家李云轩和西北大学汪昭然副教授担任共同通讯作者。

图丨相关论文(来源:arXiv)

教会模型可泛化能力:“授人以鱼,不如授人以渔”

大模型在推理过程中频繁出现反思现象,引发了研究团队对其有效性的深入思考。OpenAI 的 o1 模型当时提出“harm moment”(一种类似人类反思行为的机制),而研究团队发现理论与实际存在巨大落差:模型在处理简单题目上会花费大量 token 进行“形式化反思”,比如反复推导已知条件,却未必总能带来正确率的提升。

这一现象让该团队对大模型反思的实质价值提出质疑:这种看似智能的行为是否真的有意义?它是真正能够带来有价值的信息,还是一种形式化的计算模式?

这一问题的背后,还隐含着强化学习领域更深层的“样本困境”。自今年 3 月以来,学术界在强化学习领域取得了一系列进展,例如通义千问等模型能通过少量样本提升性能。这又引发了研究团队的另一个疑问:在样本稀缺的情况下,模型是否只是在学习解决训练集中的特定问题,而非获得真正的泛化能力?

直到研究团队分析“pass@N 效应”——当采样次数 N 足够大时,正确答案必然存在,这才意识到:或许模型需要的不是盲目试错机制,而是学会一种能够智能“整合 N 个解决方案”的策略切换能力。

基于这些发现,研究团队将研究重点转向如何帮助模型突破有限训练集的限制,从而获得可迁移的泛化能力。张申傲解释说道:“授人以鱼,不如授人以渔——‘鱼’代表训练集中的具体问题,而‘渔’则代表模型的可泛化能力。”

在这一理念指导下,团队开发了 BARL 框架。该框架的核心创新在于建立了一个多策略整合机制:当模型在推理过程中收集到新的证据时,能够动态评估当前策略的有效性,并在必要时自主切换到更优的解决方案路径。这种设计不仅解决了形式化反思的效率问题,更重要的是赋予模型在未知情境中自适应调整策略的能力。

突破传统强化学习的“记忆瓶颈”

传统马尔可夫 RL 的表现就像“照本宣科的优等生”:训练时通过试错记住正确路径,测试时直接“背诵答案”,完全放弃探索过程。这种模式下,模型反思行为很难自然涌现。本研究聚焦于测试阶段的反思机制,虽然理论上反思能力可能在训练过程中形成,但实验结果表明这并非必然。

研究团队通过对比实验发现:当使用基础模型配合 GRPO 进行短期训练时,模型会逐渐抑制中间推理过程的输出,转而直接呈现最终答案。这种“答案压缩”现象导致中间反思行为的关键信号缺失,使得反思机制难以自然涌现。

张申傲向 DeepTech 阐释道:“反思行为虽然在理论层面具有认知优势,但实证显示它既无法通过常规训练自发形成,也难以解释测试阶段试错行为的作用机制。”

图丨马尔可夫强化学习与 BARL 在这个教学示例中的差异示意图(来源:arXiv)

传统 RL 在训练时记住“000”或“111”的模式,测试时遇到新令牌“2”就立即失效,就像学生“死记硬背”单词时遇到新词汇时会束手无策。相比之下,BARL 在训练时维护“重复三次”的抽象规则,测试时通过观察反馈(如“222”是否触发奖励)动态更新假设,最终自主发现通用规律。实现数据显示,BARL 在该任务的测试准确率比 GRPO 高 40%,这证明“维护假设分布”比“记忆具体解”更具泛化性。

那么,如何具体执行错误假设的高效排除呢?该团队创新性地提出“无效性判定”理论作为反思触发条件:当模型预判策略 A 最优,但实际执行后发现回报与预期不符,就判定 A 为“非优策略”并排除。以四个候选策略 A/B/C/D 为例,一次反馈冲突就即可淘汰 A,保留 B/C/D。这种“内部信念-环境反馈”的冲突检测的机制,就像给模型装了“反思开关”。

其核心突破在于:当模型认知与环境证据出现矛盾时,会自动触发策略重组程序。这种设计从根本上改变了传统方法依赖固定预训练策略、忽视实时反馈的局限,实现了真正意义上的动态认知调整。

图丨重复提示令牌(橙色)三次可获得 1 次奖励(来源:arXiv)

最初,该团队曾尝试通过贝叶斯强化学习的目标,来获取测试时的启发式策略。然而,核心步骤是估计序列化加权值,因为存在 MDP 的不确定性。其最大的难点是捕捉这种“不确定性”,需要学习 MDP 不确定性的后验概率以及对应的期望值。

研究团队先后尝试采用价值集合(如线性头或 LoRA)来估计后验加权值,但发现参数共享机制导致不确定性捕捉失效,就像多个传感器读取同一噪声数据,无法提供有效信息增益。

这一发现促使研究转向“策略采样”新路径:直接对策略空间进行 N 次采样,利用候选答案之间的自然差异来表征不确定性,反而显著提升了计算效率。张申傲指出,现行算法摒弃了传统价值函数,仅需对采样结果进行加权整合,其计算成本与 GRPO 相当,但探索效率大幅提升。

“精准探索”比“盲目试错”更具实用价值

BARL 在复杂认知任务中展现出卓越性能,特别是在数学推理领域。由于数学问题具有答案明确(如公式正确性可验证)、反馈即时等特点,成为验证反思机制的理想场景。

从实现层面看,BARL 在保持 GRPO 训练流程的基础上进行了关键创新:针对同一提示生成 N 个响应并计算策略梯度的过程中,GRPO 作为传统马尔可夫 RL 算法忽视了 MDP 的复杂性,而 BARL 通过改进的强化学习框架实现了智能探索。这使得 BARL 有望成为当前 GRPO 类算法的重要替代方案——尤其在大模型时代,“精准探索”比“盲目试错”更具实用价值。

具体而言,算法会根据任务复杂度动态调整策略:简单任务中,若模型内部信念已能引导生成优质结果,则无需反思;复杂任务下,通过整合多轮结果优化探索过程。当前研究聚焦于强化学习的后训练阶段,后续将拓展至预训练阶段,探索基于现有方法的创新推导路径。

应用前景方面,该框架在编程和智能体协同等领域具有显著潜力。在代码生成场景中,“step-level 奖励”的设计需要更精细的反馈机制,例如通过单元测试动态验证代码有效性。目前,团队已尝试将蒙特卡洛采样与 step-level 奖励相结合,并且在小规模编程任务中取得初步成效。而多智能体协作则需要解决“策略冲突”新挑战,特别是如何实现不同智能体假设分布的协同更新,这将成为他们后续重点研究方向。

此外,团队正在扩大实验规模,计划在更大数据集和模型上验证 BARL 算法。实验过程中他们还发现,除了强化学习算法本身,基础模型的原始能力同样至关重要。因此,另一个重要研究方向是,如何结合 BARL 设计配套的预训练/再训练算法。

张申傲指出,目前的训练主要是基于下一个 token 预测,这可以被视为一个 horizon 为 1 的强化学习过程。他与所在团队正在思考如何利用 BARL 来拓展这个过程,通过与后训练算法相结合探索新的预训练范式。他们还计划将 BARL 应用于游戏策略优化等“黑白反馈”领域,这类非连续奖励场景中,BARL 的“假设排除”机制可能展现出独特优势。

从第一性原理出发,寻找问题的“最优解”

张申傲本科毕业于华南理工大学计算机专业,早期专注于对话系统研究。在大三期间,作为交换生在美国加利福尼亚大学伯克利分校访学的经历成为其研究方向的关键转折点——通过系统修读谢尔盖·莱文(Sergey Levine)教授的人工智能导论课程,首次深入接触到强化学习这一前沿领域。

“莱文教授体系化的教学框架与前瞻性的科研视野,特别是对强化学习数学原理的深刻阐释,如同打开了一扇认知新窗口,使我确立了这一领域的研究方向。”张申傲回忆道。这段启蒙经历直接促使他在硕士阶段选择赴美国佐治亚理工学院深造,并完成了面向强化学习算法的系统性训练。

目前,他在西北大学汪昭然团队攻读博士学位,研究方向聚焦于样本高效的强化学习,包括推理任务的认知建模、代理任务的自主决策优化以及 AI 对齐问题的机制设计等。

图丨张申傲(来源:张申傲)

这一研究框架的形成既源于其学术传承,也深受 DeepMind 系列突破性工作的启发——从 AlphaGo 开创的范式革命到 MuZero 展现的模型化演进,这些里程碑式研究不仅提供了方法论参照,更深化了他对“智能体与环境交互本质”的理解。

基于上述学术积淀,张申傲早期工作的重点探索基于模型的强化学习框架,通过将蒙特卡洛树搜索等规划算法与神经网络世界模型相结合,构建了融合传统动态规划与现代深度学习的混合决策系统。这类研究显著提升了智能体在稀疏奖励环境中的样本利用效率,为解决强化学习中的“探索-利用”困境提供了新思路。

除了学术研究外,张申傲还先后在谷歌、微软、字节跳动和腾讯人工智能实验室等知名企业实习,在工业界的经历使他的研究视角产生了重要转变。“与学术界的理论追求不同,产业应用更强调在约束条件下实现最优解,这也促进了我从第一性原理出发进行研究工作。”他说。

随着 Scaling Laws 的提出和大语言模型与强化学习的融合创新,一些头部科技公司在产品化落地和算力高效利用等方面已取得显著成效。这一观察也反映在张申傲个人的职业规划中——6月,他已开启在苹果公司的新一轮实习,继续探索学术界与工业界的知识协同创新。

参考资料:

1.https://arxiv.org/abs/2505.20561

2. 训练代码:https://github.com/shenao-zhang/BARL

3.https://arxiv.org/abs/2209.07676

运营/排版:何晨龙、刘雅坤

来源:DeepTech深科技一点号

相关推荐