Nature:里程碑式论文揭示 DeepSeek AI 模型的秘密,论文全文展示

B站影视 港台电影 2025-09-19 17:58 1

摘要:它在AIME数学竞赛中以超人表现震撼世界,却因缺乏人类引导,成了只会“算数”的沟通障碍者。这篇论文不仅揭示了DeepSeek AI的秘密,更叩问了智能的本质与边界。

当AI被剥夺人类预设的“常识”和“思考路径”,它会走向何方?DeepSeek团队用一场大胆的哲学实验给出了答案:一个在《自然》杂志封面惊艳亮相的“野蛮天才”!

它在AIME数学竞赛中以超人表现震撼世界,却因缺乏人类引导,成了只会“算数”的沟通障碍者。这篇论文不仅揭示了DeepSeek AI的秘密,更叩问了智能的本质与边界。

那么,这种强大的推理能力到底是从何而来的?答案,就藏在它那段挣脱了人类知识枷锁的“野蛮生长”时期。

这个过程的发动机,是一种名为分组相对策略优化(GRPO)的核心强化学习算法。它让模型可以自由地在问题的海洋里“乱写乱画”。

研究团队给它的唯一指令,就是用特定的标签和来组织思考和回答。然后,就放手让它自己去闯了。

一个非常显著的现象发生了:在训练中,模型生成的推理步骤,也就是标签里的内容,自发地变得越来越长。

这就像一个学生,从一开始的草草几笔,到后来会打满整张草稿纸。它在主动地增加自己的“思考时间”。

更神奇的是,它还自主地发展出了许多更复杂的推理策略。比如,它会进行自我反思和验证,就像在说:“我这么算对不对?换个方法试试?”训练过程中,甚至出现了一个被研究者称为“顿悟时刻”的节点。

其标志,是模型输出中“wait”这个词的使用频率突然暴增。这似乎是机器在形成某种更高级、更抽象的问题解决策略时,一个关键的转折点。

这种自我演进的特性,彻底颠覆了以往依赖海量人工标注推理过程的传统路径。它证明了,只要给予足够的自由和正确的激励,AI的内在潜力远超我们想象。

然而,这种纯粹的、只追求最终结果的成长方式,也必然要付出代价。这个被研究团队称为DeepSeek-R1-Zero的纯强化学习模型,就像一个在荒野中长大的天才,能力超群,却不懂得人类社会的基本规则。它在逻辑和理性可以称王的领域,展现出压倒性的优势。

除了在数学竞赛中大放异彩,它在诸如LeetCodehard这类高难度编程挑战和研究生级别的STEM问题上也表现得游刃有余。

甚至有程序员发现,在处理某些编程任务时,它的通过率比公司里的初级实习生还要高。可一旦离开这些“舒适区”,它的问题就暴露无遗。

语言能力的混乱是最直观的。它会在一次完整的回答中,毫无征兆地切换中英文,让阅读者摸不着头脑。

它的创造力也完全处于失控状态。你让它发挥想象力,它却只会用自己最擅长的逻辑推理来胡编乱造,结果就是那些莫名其妙的自创公式。最核心的问题是,它的原始推理过程,由于缺乏人类语言的规范,往往难以被直接理解。

这一切缺陷的根源,都指向了那个“短视”的奖励机制。它只学会了如何最高效地拿到那颗代表“正确答案”的糖果,却从未学习如何成为一个有用的、符合人类沟通习惯的伙伴。一个偏科严重的“数字萨凡特”。

给野兽套上缰绳

一个无法与人正常交流的天才,终究无法被社会所用。于是,研究团队开启了一项复杂的“社会化”工程,目标就是将这个“野兽”变成“伙伴”。

这个过程,本质上就是一次人类智慧的“再介入”,是用人类的偏好和价值观,为这匹脱缰的野马套上缰绳。

从DeepSeek-R1-Zero到最终发布的DeepSeek-R1,核心目标发生了转变:从单纯的“能推理”,升级为“好用且安全”。

第一步,是为它注入“常识”。研究团队引入了数千条高质量的人类对话数据,对模型进行初步训练,让它先学会怎么像人一样说话。

接着,是一套组合拳式的行为矫正。团队结合了拒绝采样、额外的监督微调(SFT)和第二轮强化学习,系统性地修复它在语言、格式和交互上的各种毛病。

关键在于第二轮强化学习。这一次,优化的目标不再仅仅是“正确”,而是明确地加入了“有用性”和“无害性”这两个维度。这等于是在为AI的智能核心,引入人类的价值观。

经过这一系列复杂的“驯化”,修正后的DeepSeek-R1在指令遵循和人类偏好对齐方面,确实有了显著的改善。

当然,这种“驯化”也并非一劳永逸。在后续的安全性测试中,研究人员发现,模型依然有可能被一些越狱提示词所欺骗,其风险等级被评为中等。这表明,AI的安全性仍然需要持续的关注和外部的约束。

这项研究最重要的遗产,或许并不是那个在排行榜上名列前茅的顶级模型。而是它成功地将这种高级的推理能力,通过一种名为“蒸馏”的技术,浓缩到了更小的模型中,从而开启了AI普惠的巨大可能性。

一个仅有7B参数的小型版本,在数学能力上已经可以和庞大的GPT-4相媲美。更令人兴奋的是,这些小模型的能耗极低,大约只有GPT-4的十分之一。这意味着什么?

这意味着,强大的AI推理能力,未来将不再是数据中心的专属。它可以在你的普通笔记本电脑,甚至一部旧手机上离线运行。

这对于教育等行业,无疑构成了潜在的巨大冲击。可以设想,在不远的未来,像学而思、猿辅导这样的机构,将面对一个能为学生作业提供更优解法的强大AI。

整个项目,包括模型和数据样本,都已经被开源。消息一出,就在GitHub上引发了巨大关注,半天之内star数量就突破了一万。

来源:青梅旭史

相关推荐