从直觉到“深度思考”：多维进化的大模型推理能力

摘要：尽管近年来人工智能的能力迅速增强，但在复杂的推理任务中仍存在不足。微软亚洲研究院的研究员们从多个角度对此展开研究，不断探索提升大模型推理能力的新途径。从利用蒙特卡洛树搜索模拟人类“深度思考”过程的 rStar-Math，到基于规则的强化学习方法 Logic-R

编者按：尽管近年来人工智能的能力迅速增强，但在复杂的推理任务中仍存在不足。微软亚洲研究院的研究员们从多个角度对此展开研究，不断探索提升大模型推理能力的新途径。从利用蒙特卡洛树搜索模拟人类“深度思考”过程的 rStar-Math，到基于规则的强化学习方法 Logic-RL；从融合大语言模型数学直觉与符号方法的 LIPS，到提升自动形式化准确性的新框架；再到自动生成高质量、有监督数学数据的神经符号框架，以及统一推理框架 CoR 和关键计划步骤学习 CPL 的提出，每一项研究都为提升大模型的推理能力提供了新的视角和方法。

人工智能的快速发展，使其在众多领域展现出强大的能力，同时也不断催生出人们对其更高的期待，希望人工智能能够具备深度的思考和推理能力，帮助人类解决各种“烧脑”的现实复杂问题。

为了提升大模型的推理能力，微软亚洲研究院的研究员们从三个方向开展研究：一是通过改进模型本身来增强其推理能力，使较小规模的模型也能具有强大的推理性能；二是深入学习数学推理的规则，以提高大语言模型的可靠性；三是增强推理的泛化能力，让模型能够在跨领域的任务中灵活应用，从而促进通用人工智能的进步。

释放大语言模型潜力——小模型推理能力更强大

“基于世界知识训练的大模型虽然拥有海量的知识储备，但是现有模型并没有充分发挥其所蕴含的全部潜力。不仅如此，现有的模型还缺乏持续学习的能力，这与人类不断学习新知识、填补认知空白的能力形成鲜明对比。”微软亚洲研究院首席研究员张丽说。卓越的推理能力往往依赖于大规模模型的支持，因此，一些科研人员也在探索如何让类似的推理能力可以在规模较小的模型中实现。

在传统的推理模式下，大模型面对复杂问题时常常采用简单直接的“直觉式”推理来生成答案。这种方式虽然速度较快，但很容易出错。相比之下，人类会对问题进行逐步分析，尝试多种思路，权衡利弊后再给出答案。鉴于此，研究员们提出了 rStar-Math，其核心在于利用蒙特卡洛树搜索（MCTS），模拟人类的“深度思考”过程，让小语言模型在推理能力方面达到更高的水准。

rStar-Math 通过三个步骤实现了自我进化：首先，将复杂的数学问题分解为多个推理步骤，使模型能够逐步探索并验证每一步的贡献，确保小模型生成的推理轨迹由正确、高质量的中间步骤组成；其次，训练一个作为过程偏好模型（PPM）的小模型，用于可靠地为每个数学推理步骤预测奖励标签，从而实现所需的过程奖励建模以及可靠的标注；最后，通过一个四轮自我进化方案，从零开始逐步构建前沿的策略模型和 PPM，每一轮都使用最新的策略模型和 PPM 进行蒙特卡洛树搜索，进而逐步进化，训练出更强的策略模型和 PPM。

实验显示，rStar-Math 在四个小语言模型（15亿 - 70亿参数）上验证了自身的有效性。在美国数学奥林匹克竞赛（AIME）中，rStar-Math 平均能够解决53.3%（8/15）的问题，排名在前20%最优秀的高中数学学生之列。

rStar-Math: Small LLMs can master math reasoning with self-evolved deep thinking

论文链接：

图1：rStar-Math 示意图

研究员们还提出了基于规则的强化学习方法 Logic-RL，通过合成逻辑谜题作为训练数据来提高模型在复杂逻辑问题上的推理能力。Logic-RL 引入了一种实用系统提示和严格的格式奖励函数，避免推理模型走捷径。例如，模型在生成答案时，必须按照特定格式组织推理过程和答案，只有当推理过程和答案都符合要求时，才能获得较高奖励，以此确保推理过程的完整性和准确性。

经过 Logic-RL 训练后的模型不仅在逻辑谜题上表现出色，在70亿参数小模型的数学竞赛基准测试（如 AIME和 AMC）中也展现出了强大的泛化能力，准确率分别提高了125%和38%。

Logic-RL: Unleashing LLM reasoning with rule-based reinforcement learning

论文链接：

强化数学推理能力——推理更可靠

数学作为科学的基石，具有严密的逻辑性和高度的精确性。对于人工智能而言，解决数学推理难题将大幅提升人工智能的推理能力，也将促进模型在各个领域的广泛应用。然而，仅仅依靠大模型的自然语言处理能力，往往难以满足数学推理所需的严格标准。为此，研究员们运用形式化和符号化的研究方法，帮助模型学习人类已有的数学方法和工具，掌握数学规则，提升推理的效率与准确性。

“自然语言是人类的语言，并不是计算机或大模型的原生语言，它们并不能直接理解自然语言。我们希望将大语言模型的输出转换为代码形式，并将其映射到公理中，例如‘1+1=2’这样不证自明的公理，从而验证模型输出的正确性。这类似于人类在交流时将听到的话语转换为自己的理解，而我们则是通过形式化流程将其转换为计算机能够理解的工具。”微软亚洲研究院高级研究员张宪说。

数学语言涵盖数学定理、不等式证明等，与大语言模型的语言体系存在显著差异。要让大模型理解数学问题，首先需要通过形式化和符号化的方法将数学题目转化为代码形式，再映射为计算机可理解的公理。基于此，研究员们设计了基于大模型的符号推理不等式证明器（LLM-based inequality prover with symbolic reasoning）LIPS。它创造性地融合了大模型的数学直觉与符号方法所编码的领域特定见解，以确定数学推理中哪些部分最适合大模型，哪些部分更适合采用符号方法。

通过分析人类解决此类问题的思路，LIPS 提炼出两种策略：一是由符号方法处理的缩放（scaling）；二是由大模型处理的重写（rewriting）。在使用来自多个数学竞赛的161个极具挑战性的不等式对 LIPS 进行评估后，结果显示 LIPS 展现出了目前最先进的性能，并且在无需额外训练数据的情况下，大大优于现有的大模型和符号方法。

Proving Olympiad inequalities by synergizing LLMs and symbolic reasoning

论文链接：

https://openreview.net/pdf?id=FiyS0ecSm0

图2：LIPS 符号推理不等式证明器

尽管形式化方法使大模型在多种数学推理任务中表现出巨大潜力，但大模型在自动形式化数据陈述上的成功率仍然较低。具体而言，在大模型的自动形式化中，一次通过率（排名第一的生成结果正确）和 k 次通过率（排名前 k 的生成结果中有一个正确）之间有明显的差异。

为了缩小这一差距，研究员们引入了一种新框架，从两个创新且互补的维度建立自动形式化的自一致性——符号等价性和语义一致性。符号等价性将传统的比较（如最终答案和执行行为）进行扩展，以验证自动形式化候选结果之间的逻辑等价性。语义一致性则通过测量重新非形式化（反向翻译）结果与原始自然语言陈述之间的嵌入相似性，纠正符号等价性可能忽略的意外推理差异。这种方法确保了自动形式化过程能够保留原始陈述的预期含义和连贯性。在 MATH 和 miniF2F 数据集上的实验表明，该方法极大地提高了自动形式化的准确性，在各种大语言模型和基线方法上实现了高达0.22-1.35倍的相对改进。

Autoformalizing mathematical statements by symbolic equivalence and semantic consistency

论文链接：

https://openreview.net/pdf?id=8ihVBYpMV4

图3：自动形式化框架

此外，研究员们认为，高质量数学数据集的极度匮乏也是限制大语言模型数学推理能力提升的关键因素之一。为了突破这一困境，研究员们提出了一种神经符号框架，用于自动生成高质量、有监督的数学数据。这一范式结合了神经和符号的优势，一方面，通过系统采样在符号空间中生成多样化的数学问题，并利用符号求解器保证问题的有效性；另一方面，大模型能够有效地支持从符号空间到自然语言空间的转换，确保新生成的形式化问题与其相应的自然语言版本保持一致。

Neuro-symbolic data generation for math reasoning

论文链接：

https://openreview.net/pdf?id=CIcMZGLyZW

图4：神经符号框架

提升大语言模型推理泛化能力——推理更可用

推理泛化能力是衡量人工智能是否真正具备通用性的重要指标。具备强大泛化能力的模型，能够跨越不同领域的知识边界，做到“举一反三”，进而拓展人工智能的应用范围和价值。研究员们发现，模型经过数学数据训练后，其推理能力在科学、代码等多个领域都有显著提升。这一发现为提升大模型的推理泛化能力提供了新的思路和方向。

通过将自然语言、代码和符号语言三种推理范式融入同一条推理轨迹，研究员们提出了统一推理框架 CoR（Chain-of-Reasoning）。其中，自然语言有助于理解问题的背景和需求，代码语言擅长精确的计算和逻辑处理，符号语言能以简洁、严谨的方式表达数学和逻辑关系。CoR 允许模型先基于某一范式推理，再根据问题的不同阶段和需求灵活切换范式，在先前生成内容的基础上继续进行多范式的协同推理，实现通用数学任务上的推理泛化。

另外，利用调整提示词（prompt），模型还可以改变推理深度和使用的范式数量，极大提高了其对不同任务的适应性。在5个数学推理数据集的测试中，CoR 均取得了大幅的提升效果，展现出令人惊喜的通用数学解题能力——既能解决数学计算问题，又能解决数学证明问题。

Chain-of-Reasoning: Towards unified mathematical reasoning in LLMs via a multi-paradigm perspective

论文链接：

图5：不同范式下的推理过程

此外，现有的大模型主要侧重于提升特定任务或特定领域（如数学或编程）的推理能力，并未充分解决模型在各种推理任务中的泛化能力问题。为了增强推理任务中的泛化能力，研究员们建议在高级抽象计划的动作空间内进行搜索，而不是局限于通常会限制泛化能力的特定任务动作空间。

通过分析此前利用大模型生成推理计划以及特定任务解决方案，来提升推理能力的相关研究，研究员们发现，特定任务的解决方案与特定任务的技能密切相关。相比之下，计划代表了一种解决问题的抽象思维，如决定应用哪些知识或如何分解问题，这有助于模型培养更广泛的、与任务无关的能力，进而提升泛化能力。

微软亚洲研究院首席研究员韩雪婷表示，“人类在思考解决问题时，存在一些共性策略。例如，将复杂问题拆解为子问题，从众多信息中提取关键部分，以及根据特定信息回忆、调取已有知识，像是数学中的定理或编程中的算法等。通过学习这些解题策略，当遇到新问题时，大模型也会形成一种类似人类解题的思路，从而更有效地解决问题。”

基于此，研究员们提出了关键计划步骤学习 CPL（Critical Plan Step Learning）方法，它由两个关键部分组成：基于计划的搜索和通过步骤级优势偏好优化（Step-APO），来学习关键计划步骤。基于计划的搜索利用蒙特卡洛树搜索在多步推理任务中探索不同的计划步骤，通过创建计划树，帮助模型获得与任务无关的技能，提升模型在不同任务中的泛化能力。Step-APO 则整合了利用蒙特卡洛树搜索获得的步骤级偏好对的优势估计，使模型能够学习步骤之间的细粒度偏好，识别关键计划步骤，并弱化错误步骤的影响，从而增强模型的整体推理能力，提升模型在不同任务中的泛化能力。

CPL: Critical plan step learning boosts LLM generalization in reasoning tasks

论文链接：

图6：CPL 示意图

持续拓展推理能力边界，应对大模型困境

从数学推理到提升模型推理的泛化能力，从直觉式的快速回答到经过深度思考的回答，微软亚洲研究院的研究员们持续探索大模型推理性能的边界。通过引入新的视角和方法，他们不仅推动了该领域的前沿发展，还带动了更多相关研究取得新进展。随着大语言模型性能和可靠性的提升，人工智能在现实场景中的应用范围也在不断扩大，为智能教育、智能医疗、智能科研等领域提供了强有力的技术支持。

然而，我们也必须认识到当前大模型仍面临诸多挑战，如生成内容时出现的幻觉问题以及推理过程不够严谨等。这些问题在特定应用场景中可能会带来严重后果。例如，在科学研究中，模型推理的偏差可能导致错误的研究方向，造成资源的巨大浪费；在医疗健康领域，不准确的信息可能直接危及患者的生命安全。

除了前文所述的研究，微软亚洲研究院的研究员们也在尝试从更多不同的角度提升人工智能的推理能力，包括使用 LLMs 为 Rust 代码自动生成正确性证明，设计与 Verus 验证工具独特功能相匹配的方法；提出 SAFE 框架，解决 Rust 代码形式化证明中数据稀缺的问题；推出 Alchemy 框架，通过变化符号构建形式化定理，缓解神经定理证明（NTP）中的数据不足问题，等等。这些成果为大语言模型的推理能力提升提供了更多可能性，也为未来的研究方向提供了丰富的思路。