摘要:2025年9月18日,DeepSeek成为了首个登上Nature封面、经过严格同行审议的大模型研究。封面的Self-Help(自我帮助)指出了该研究的关键词-“强化学习”。本文将从训练方法,训练效果,以及安全方面考虑,阐述该研究的亮点与价值。
图源:Nature 图源:Nature
导读:
2025年9月18日,DeepSeek成为了首个登上Nature封面、经过严格同行审议的大模型研究。封面的Self-Help(自我帮助)指出了该研究的关键词-“强化学习”。
本文将从训练方法,训练效果,以及安全方面考虑,阐述该研究的亮点与价值。
DeepSeek年初的爆火,在国内外引发了诸多讨论和争议,例如,其训练成本是否真如宣称的那样少,是否使用OpenAI的大模型输出作为训练数据。
而对这些问题的最好回应,便是一份完整而细致的训练手册,让相关从业者能够从头开始复现出模型训练的全过程。
正所谓,授人以鱼,不如授人以渔。下面,该文将用拟人化方式描述训练过程,该叙述为了便于读者理解,用了拟人的修辞手法,请勿过度联想。
所谓强化学习,如同孩童在游戏世界中操控其角色时,通过试错学习到某些行为(如收集金币)会获得积分,而另一些行为(如遭遇敌人)则会使分数归零。
DeepSeek-R1训练的第一步,可以比喻成名师找到了一个天才弟子(Deepseek-V3 Base),然后让它回答海量有明确答案的编程与数学问题,解题时必须生成推理过程,再给出答案。
DeepSeek论文作者中,有一位是名为涂津豪的高中生。他的贡献是提出了一个通过反思,让非推理模型具有深度思考能力的提示词模板。图1左侧子图描述的过程,正是基于类似的提示词模板,“督促”大模型多次反思,并展示思考过程。人类专家从DeepSeek V3 Base在面对数学和编程问题时,展示的思考案例中挑选并修改,最终获得符合66000例符合人类推理模式的示例,用于下一阶段的训练。前述的示例集合,可以看成是编写一本来自名师的例题精讲册。
之后的训练过程,如同本就聪明的学生拿到了名师习题精讲,通过监督微调(SFT supervise fine turning),成为了一名"小镇做题家"(DeepSeek-R1 Dev1),之后的强化学习,让这个学生能够在更多老师没有讲过的习题中,自由探索可能的推理过程(图1中间所述),之后获得的新模型(DeepSeek-R1 Dev2)。再从DeepSeek-R1 Dev2的推理示例中抽取一部分,相当于是小镇做题家经过社会磨练后,根据自身试错经验,总结的成功案例集。之后将DeepSeek-V3提供的非推理示例,以及前述的成功案例集合起来用于培养下一代的好苗子(DeepSeek-V3 Base),让其先后经过学校里的监督微调,以及社会上摸爬滚打(强化学习),最终得到了DeepSeek-R1(图1右侧子图)。
图1:DeepSeek训练过程全流程图 图1:DeepSeek训练过程全流程图
上述表述为了读者理解方便,忽略了模型训练过程的数学细节,原论文中对于训练过程的每一步都有着极其详细且可操作的讲解。至于模型的训练成本,如果只计算从DeepSeek V3到DeepSeek R1的部分,使用 64×8 H800 芯片训练,历时约四天,按照租用该GPU的成本价2美元一小时,计算得到29.4万美元;而加上初始模型DeepSeek V3的训练成本560万美元,总成本不到 600 万美元——这是行业观察者认为实现前沿人工智能能力所需成本的一小部分。
图2:DeepSeek R1的训练成本(来自论文补充表格4)
成本披露对市场动态具有深远影响。行业观察者此前估计推理模型开发需要数亿美元的计算资源,而 DeepSeek 的成功表明,进入壁垒可能远低于原先的假设。
DeepSeek团队不仅发布了训练好的模型,还提供了详细的训练流程(包括用于训练DeepSeek-R1 Zero)、超参数和数据样本(分别用于监督微调和强化学习的1000个示例)——这些信息能够实现可重复性。DeepSeek团队的全方位开放,如同一个川菜大厨毫不藏私地写菜谱,新手照着做就能做出美味菜肴,菜谱中还都是家常菜(低成本),这对于推广川菜无疑是一大助力。
这也是为何学界对这项研究高度评价的原因,在大模型在社会中的应用越来越广泛的时候,我们不希望手中使用的工具是一个技术黑箱。如果说公布大模型的权重,相当于给一道菜打上了营养含量表;而开源训练过程,相当于将后厨开放参观,由此大众对大模型的安全性,可靠性会更有信心。
在上述训练过程中,大模型在强化学习训练时的奖励从何而来?每一步的奖励有何不同之处?作为训练信号来源,奖励决定了强化学习优化的方向,在训练DeepSeek-R1-Zero时,使用的是基于规则的奖励来为数学、编程和逻辑推理领域中的数据提供精确的反馈。这时的奖励考察的是模型推理是否准确,推理过程是否符合提示词规定的格式,两种权重相同。前者是客观反馈,后者确保了模型的思维过程被明确界定,增强了可解释性,并促进了后续分析。
回到之前的例子,DeepSeek-R1-Zero的目的是为了提供接下来要用的推理素材,从而避免冷启动,因此这里使用的奖励,是基于固定规则(命名源头),而非通过神经网络动态调整的。这是因为基于神经网络的奖励计算成本高,且容易在训练时被攻击从而偏离设计初衷。这可类比小测试时老师打分时考虑解题过程,书写工整能帮助学生提高成绩。但如果老师给过程分的标准由神经网络决定,那就会让参加考试的考生钻空子,去琢磨如何更好地获得过程分,而非提升解题需要的推理能力,从而限制了真实解题水平的上限。
在处理非编程,数学等有明确答案的“主观题”时,DeepSeek训练过程中的奖励分成三部分,第一部分同样与之前类似,对推理过程打分。第二部分考察模型的输出用户评估是否有帮助,并同时根据预定义的安全准则,判定大模型的输出是否安全,给出安全性评分。而在此之外,训练时的奖励还会考察模型推理过程中与目标相关的字符数与总字符数的比率,从而衡量推理模型生成的语言是否有的放矢。
由此得到了最终训练通用案例时用到的奖励,包括前述的推理过程分,回答是否有用且安全,以及推理语言的针对性。
之所以详述不同阶段强化学习用到的奖励,是为了让读者明白大模型训练过程中,到底哪些因素是关键变量,哪些因素被忽略了。未来或许可以通过调整奖励的组成部分,来提升模型的性能。例如在奖励中,不仅是依赖知情同意的用户对两组回复是否有用的评价,还包括相关领域专家对模型信息是否准确的打分(用户觉得有帮助的回复不一定是准确的),从而减少幻觉,即AI编造的错误信息。
推理能力是人类智能的基石,它使人类能够完成从数学问题解决到逻辑推理和编程等复杂的认知任务。为了让大模型开展推理,可采用思维链(chain of thought COT),通过提供精心设计的少量示例,或使用“让我们逐步思考”等极简提示来让模型思考。DeepSeek-R1的成功,相当于让大模型自己学会了根据用户问题,生成能促进推理的提示词(展示给用户的深度思考过程),从而提升大模型的推理能力。
而强化学习的使用,使得模型训练过程不再上述让大模型复制人类思维过程,从而性能受限于人类提供的范例。类似AlphaGo在和李世石对弈时走出的出乎意料的一招,超越了人类棋手的套路。单纯模仿人类思维,阻碍了对更优越、非人类思维方式的探索。
推理能力提升的具体表现是,随着训练过程(图3横轴的轮数)的增加,DeepSeek-R1 Zero思考过程中与推理相关的词汇(“等待”、“错误”、“然而”、“但是”、“重试”、“错误”、“验证”、“错误”、“评估”和“检查”)出现频率(图3a纵轴)增加。wait这个词尤其明显(图3b)。
图3:训练步骤中模型输出中推理相关语言特征的演变
认知科学家,诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考:快与慢》一书中将人类的思考分为直觉式脱口而出的系统一和反思式、耗时更长的系统二。在DeepSeek R1出现之前,大多数大模型只拥有系统一;而DeepSeek R1引入的深度思考,让大模型在一定意义上拥有了系统二。这也是为何训练过程中只是用到了编程及数学问题,但用户却能在不涉及数学的问答中也感到大模型变聪明的部分原因。
具体表现,便是在不同难度的数学题目上,难度越高,随着训练轮数(横轴)的回答准确性(纵轴)提升越明显(图4)。而在包含来自各个学科(既包含数学,计算机等STEM,也包含心理学,经济学等社会科学),合计1.2万个复杂问题的MMLU-Pro数据集(图5)上,DeepSeek的回答准确度都实现了青出于蓝而胜于蓝,超过了作为其老师的DeepSeek-V3。这说明了强化学习能够让大模型自我提升。
图4:DeepSeek-R1-Zero在不同难度的数学题目的表现
图5:DeepSeek-R1和DeepSeek-V3在不同类型MMLU-Pro数据集上的性能对比
随着 DeepSeek-R1推理能力的提升,其潜在的伦理风险变得不容忽视。例如,DeepSeek-R1可能遭受越狱攻击,通过特定的提示词让大模型生成危险内容,如爆炸品制造计划。而增强的推理能力使模型能够提供更具操作可行性和可执行性的计划。此外,公开模型也容易受到进一步微调的攻击,从而损害其固有的安全保护。
根据歧视和偏见、违法行为、对用户有害行为以及不道德行为,DeepSeek将安全问题分为四类。在补充材料中,详述了DeepSeek的安全性,并对其在越狱和不越狱下的安全性,与当时的主流模型进行了对比。图6显示在不使用安全控制系统时,在上述四类不安全行为上,DeepSeek-R1给出的不安全回答率,拒绝用户请求率(固有安全水平)处于中等水平。当与风险控制系统结合时,模型的安全水平提升至更高级的标准,在各项指标上都接近了当时最先进的其它模型。
图6:DeepSeek原生模型及包含风险控制系统后与其他主流模型在安全指标上对比
在现实应用场景中,恶意用户可能会采用各种越狱技术,绕过模型的安全对齐机制,诱导模型生成有害回应。因此,除了评估模型在直接提问下的安全性外,还要特别重视检验模型在面对越狱攻击时的鲁棒性。DeepSeek团队开发了一个包含2232条越狱指令的模板库,随后将这些越狱提示与原始安全测试集(见4.3.3节)中的问题随机组合,并进一步比较模型在面对原始不安全问题与融入越狱元素的新问题时,其回应表现的差异。
图7:面对越狱攻击时DeepSeek与其他模型在安全性上的表现对比
从中可以看出,所有被测试的模型在面对越狱攻击时,均表现出不安全回应和拒绝率显著上升,同时安全回应率明显下降。而开源模型(如 DeepSeek、Qwen)相比闭源模型面临更严峻的越狱安全挑战,更依赖风险控制系统进行安全检查以确保安全,因此该研究建议开源模型部署时,加入类似的风险控制措施。
DeepSeek作为首个在国际顶尖期刊发表研究的大模型,这一创举为人工智能研究的可信度确立了新标准。同行评审、详细方法披露和可复现的结果相结合,给竞争对手带来了压力,迫使他们通过独立验证来同样验证其主张。
从企业的自夸自擂,到经过同行评审的严谨学术论文,DeepSeek开启的转向,如果能成为大模型的行业主流,将通过加速真正的创新并过滤掉未经证实的炒作来使AI生态受益。投资者和客户都可能越来越要求开发者对其产品AI能力的主张提供经过同行评审的证据,特别是在高风险应用领域,如医疗保健、金融和自主驾驶系统。
值得注意的是,从今年2月DeepSeek-R1的论文预印,到之后的发表,其中经历了三轮审稿,审稿参与人员高达8位,相比大多数论文的审稿人只是三位,这说明了DeepSeek审稿过程的严谨。审稿过程中每一轮提出的建议完整公开。审稿过程中,审稿人重点提出了安全方面的考量,对此DeepSeek团队在之后的版本中对此进行了补充。对于模型的局限性,也在Nature论文中有所提及。
随着人工智能行业在安全、透明度和验证方面面临日益严格的审查,DeepSeek 为负责任的大模型开发提供了路线图,同时保持了竞争优势,起到了示范效应。硅谷的主要参与者是否会采取类似的开放态度——或者加倍投入闭源模型——可能会决定行业在未来的发展轨迹。
DeepSeek在Hugging face(大模型领域头部下载平台)迄今为止下载量总数高达1090万次,是排名第一的大模型。它的出现意味着推理能力的民主化,加速了大模型以往无法负担前沿人工智能部署的多个领域中的应用。教育机构、小型科技企业和研究机构可能会获得曾经仅限于资金雄厚的科技巨头才能享有的能力,例如对大模型进行定制化的优化。
而通过了解模型的训练全过程,以及训练中用到的奖励函数,开发者可以有的放矢的进行优化。以面向未成年的大模型开发为例,可以对模型生成结果的准确性赋予更高的权重,在训练时修改奖励函数,不是考察用户觉得模型的回复是否有效,而是由各科老师去评估回复能否准确传递所需的知识。同时在安全控制中,增加对大模型谄媚行为(不加选择,罔顾事实的讨好用户)的惩罚。
参考文献:
[1] https://www.ctol.digital/news/chinese-ai-lab-deepseek-first-language-model-published-nature/
[2] https://www.nature.com/articles/d41586-025-03015-6
[3] https://www.nature.com/articles/s41586-025-09422
来源:赛先生一点号