Nature | 强化学习提升DeepSeek推理能力

B站影视 日本电影 2025-09-21 02:00 4

摘要:梁文锋等介绍如何结合强化学习(RL)[1]提升模型推理能力,把DeepSeek-V3 Base[2]升级到DeepSeek-R1的工作近日发表在Nature[3]。

梁文锋等介绍如何结合强化学习(RL)[1]提升模型推理能力,把DeepSeek-V3 Base[2]升级到DeepSeek-R1的工作近日发表在Nature[3]。

该项工作自以预印本公布以来,不到8个月已经被引3,741次[3]。

该项工作重点突出了强化学习提升模型逻辑推理,自发形成比较复杂的思考链,探索出正确答案的能力。其中的关键点是可以通过推理获取且明确的ground truth,合理的激励策略以及充分的计算资源[3]。

进一步,作者们结合supervised fine-tuning(SFT)等提升了DeepSeek产出的可读性和执行非推理任务的能力[2], [3]。

DeepSeek-V3 Base升级到DeepSeek-R1的整体框架和表现提升[1], [3]。

训练成本[3]。

该项工作2025年9月17日发表在Nature。作者们表示目前还面临如何通过强化学习提升模型在执行不容易量化评估的复杂任务时的表现等挑战;后续结合搜索/编译工具乃至真实世界的实验有望进一步提升模型回答问题的广度和准确性[3]。

Comment(s):

将来或许还可以设计方法进一步激励简洁且有创造性的探索。

参考文献:

[1] Z. Shao et al., “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,” pp. 1–30, Apr. 2024, [Online]. Available: http://arxiv.org/abs/2402.03300

[2] DeepSeek-AI et al., “DeepSeek-V3 Technical Report,” vol. 2024, pp. 1–53, Feb. 2025, [Online]. Available: http://arxiv.org/abs/2412.19437

[3] D. Guo et al., “DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning,” Nature, vol. 645, no. 8081, pp. 633–638, Sep. 2025, doi: 10.1038/s41586-025-09422-z.

原文链接:

来源:DLA点线圈科技

相关推荐