DeepSeek经过同行评审的论文在Nature上见刊了!

B站影视 韩国电影 2025-09-21 09:43 1

摘要:DeepSeek前两天在Nature见刊的论文《DeepSeek‑R1 incentivizes reasoning in LLMs through reinforcement learning》证明了不用人工标注推理轨迹,仅凭可验证的最终答案与纯强化学习,就

DeepSeek前两天在Nature见刊的论文《DeepSeek‑R1 incentivizes reasoning in LLMs through reinforcement learning》证明了不用人工标注推理轨迹,仅凭可验证的最终答案纯强化学习,就能在数学、编程等“可验题”上进行长链式推理、反思与自检等行为,并拿到了很好的成绩,随后再融合偏好/安全奖励,让模型兼顾了通用能力与可读性。这篇文章的几个关键点:以GRPO代替传统PPO简化RL训练稳定性与效率问题。R1‑Zero阶段只用规则奖励,不教“怎么想”,却自发学会“等一下→反思→再验算”的长CoT行为,自一致解码提升到86.7%。R1阶段再引入偏好/安全奖励与语言一致性,在保持推理的同时,提升指令跟随、写作与可读性。强推理能力可蒸馏到更小模型,成本更低、能耗更优,利于产业侧落地。对可靠奖励高度依赖;在结构化输出、工具使用、token效率、提示敏感语言混用等方面仍有限制。其实这些关键点大家也早就听说过,但今天要说的重点是Nature,全球最顶级的综合性科学期刊之一,与 Science、Cell 并列为“三大刊物”。其核心特征是跨学科、前沿、重大突破,也就是说任何学科(物理、化学、生物、医学、计算机科学等)只要有重大、具有广泛影响的发现,都可能在Nature上发表。

期刊的影响因子(Impact Factor)长年维持在50左右(2024年最新为~64),远超一般学科期刊。采用严格的同行评审制度:通常2–4位国际一线专家匿名评审,要求论文具备原创性、重要性、可验证性。周期一般需要6–12个月甚至更久,多轮修改与质询。

单纯的工程优化或局部改进通常不足以在Nature发表,必须能对整个学科或跨学科产生启发作用,而不是局限于某一小领域。DeepSeek的这篇文章2025‑02‑14收稿2025‑07‑17录用2025‑09‑17在线发表,Nature列出同行评审者名单并提供审稿报告文件,透明度较高。这篇文章的价值会像2017年《Attention is All You Need》之于Transformer那样吗?文章来源网址:https://www.nature.com/articles/s41586-025-09422-z

来源:科学小阿浅

相关推荐