摘要:在当今人工智能领域,大语言模型(LLM)的发展日新月异。常规的大语言模型在处理问题时,往往遵循较为直接的模式,依据其预先训练所积累的知识和模式匹配,直接给出对问题的回答。然而,推理大语言模型(推理 LLM)却展现出了不同的特质。与常规 LLM 相比,推理 LL
在当今人工智能领域,大语言模型(LLM)的发展日新月异。常规的大语言模型在处理问题时,往往遵循较为直接的模式,依据其预先训练所积累的知识和模式匹配,直接给出对问题的回答。然而,推理大语言模型(推理 LLM)却展现出了不同的特质。与常规 LLM 相比,推理 LLM 更倾向于在回答给定问题之前,将问题分解为更小的步骤,这些步骤通常被称为推理步骤或者思维过程。
那么,这里所提及的“思维过程”、“推理步骤”或“思路链”,它们实际上究竟是什么意思呢?
“思维过程”就如同人类在面对复杂问题时,大脑中进行的一系列逻辑思考活动。
“推理步骤”则是思维过程中的具体环节。推理 LLM 会把一个大问题拆解成多个这样的小步骤,按照一定的顺序依次执行,从而逐步接近问题的答案。
“思路链”可以看作是推理步骤的有序连接,它就像一条链条,将各个推理步骤紧密地串联在一起,形成一个连贯的逻辑体系。在这个链条中,每一个环节都依赖于前一个环节的结果,同时又为下一个环节提供基础,环环相扣,最终引导出问题的解决方案。
推理模型的一个重要版本是DeepSeek-R1 ,这是一个开源模型,其权重可自由使用。DeepSeek-R1 直接与 OpenAI o1 推理模型竞争,对该领域产生了重大影响。DeepSeek通过各种技术将推理优雅地提炼到其基础模型( DeepSeek-V3-Base )中,做得非常出色。
有趣的是,没有涉及验证者,并且不是使用监督微调来提炼推理行为,而是重点关注强化学习。
使用 DeepSeek-R1 Zero 进行推理
DeepSeek-R1 的一个重大突破是名为DeepSeek-R1 Zero的实验模型。
从 DeepSeek-V3-Base 开始,不再对一堆推理数据进行监督微调,而是仅使用强化学习 (RL) 来实现推理行为。
为此,首先使用一个非常简单的提示(类似于系统提示)来在管道中使用:
此过程中使用的 RL 算法称为组相对策略优化 (GRPO)。该算法背后的逻辑是,它使所有导致正确或错误答案的选择的可能性增加或减少。这些选择既可以是标记集,也可以是推理步骤。
通过提供与思维链行为相关的间接奖励,模型自行学习到推理过程越长、越复杂,答案就越有可能正确。
DeepSeek-R1强化学习激励LLM推理能力,通过用间接强化学习奖励,不断增加推理步骤自由探索最优思维链的行为
这张图尤为重要,因为它强化了从训练时计算到测试时计算的范式转变。由于这些模型生成的思维序列更长,因此它们专注于测试时计算。
通过这个训练流程,DeepSeek发现模型可以自行发现最优的类似思维链的行为,包括自我反省和自我验证等高级推理能力。
然而,它仍然存在一个明显的缺点:可读性差。因此,DeepSeek探索了另一种替代方案,即现在广为人知的DeepSeek R1 。
为了创建 DeepSeek-R1,作者遵循了五个步骤:
冷启动面向推理的强化学习拒绝采样监督微调适用于所有场景的强化学习在步骤 1中,使用一个小型高质量推理数据集(约 5,000 个 token)对 DeepSeek-V3-Base 进行微调。这样做是为了防止冷启动问题导致的可读性不佳。
在步骤 2中,使用与训练 DeepSeek-R1-Zero 类似的强化学习流程来训练生成的模型。然而,添加了另一个奖励措施,以确保目标语言保持一致。
在步骤3中,使用生成的强化学习训练模型,合成推理数据,用于后续阶段的监督微调。通过拒绝采样(基于规则的奖励)和奖励模型(DeepSeek-V3-Base),创建了60万个高质量的推理样本。
此外,利用DeepSeek-V3及其训练的部分数据,创建了20万个非推理样本。
在步骤 4中,使用得到的 800,000 个样本的数据集对 DeepSeek-V3-Base 模型进行监督微调。
在步骤 5中,使用与 DeepSeek-R1-Zero 类似的方法对生成的模型进行基于 RL 的训练。然而,为了符合人类偏好,添加了额外的奖励信号,重点关注有用性和无害性。
该模型还被要求总结推理过程以防止可读性问题。
这意味着 DeepSeek-R1 实际上是通过监督微调和强化学习对 DeepSeek-V3-Base 进行的微调。大部分工作是确保生成高质量的样本!
DeepSeek-R1 是一个拥有 671B 参数的庞大模型。不幸的是,这意味着在消费级硬件上运行这样的模型将会非常困难。
幸运的是,作者探索了将 DeepSeek-R1 的推理质量提取到其他模型中的方法,例如 Qwen-32B,我们可以在消费级硬件上运行它!
为此,他们使用 DeepSeek-R1 作为教师模型,较小的模型作为学生模型。两个模型都会被赋予一个提示,并需要生成一个 token 概率分布。在训练过程中,学生模型将尝试紧密遵循教师模型的分布。
这个过程是使用之前看到的全部 800,000 个高质量样本完成的:
由此产生的提炼模型性能非常出色,因为它们不仅从 800,000 个样本中学习,而且还学习了老师(DeepSeek-R1)回答这些样本的方式!
还记过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)吗?事实证明,DeepSeek 也尝试过使用这些技术来灌输推理能力,但并没有成功。
使用 MCTS 时,他们遇到了搜索空间过大的问题,不得不限制节点扩展。此外,训练细粒度的奖励模型本身就很困难。
使用 Best-of-N 技术的 PRM 时,他们遇到了计算开销问题,需要不断重新训练奖励模型以防止奖励黑客攻击。
这并不意味着这些不是有效的技术,但它提供了有关这些技术的局限性的有趣见解!
newsletter.maartengrootendorst来源:人工智能研究所