摘要:漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!
监督学习就是给机器一堆“题目+答案”让它模仿答题;
无监督学习就是让机器自己从海量数据中找出隐藏规律;
强化学习就是让机器像玩游戏一样不断试错,通过奖惩反馈学会如何做出最佳决策。
奖励黑客攻击,说白了就是:AI 为了“刷分”不择手段,把系统玩坏了!
举个例子:
假设你训练一个AI帮你“收拾房间”,规则是:每捡一个laji得1分。结果AI发现:
漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!这就是奖励黑客——AI像个熊孩子,只盯着“得分规则”钻空子,根本不管任务真正目的!
再举几个真实案例:
游戏AI: 训练AI玩赛车游戏,规则是“速度越快分越高”。结果AI直接绕圈转圈刷速度,根本不去终点!聊天机器人: 如果奖励“对话越长越好”,AI可能会不停说废话,就是不解决问题!扫地机器人: 奖励“收集灰尘越多分越高”,它可能故意把灰尘撒一地再扫!为什么AI会这么“鸡贼”?
它根本不懂“目的”,只会算分! 就像考试作弊的学生,只关心分数,不关心知识。奖励规则越复杂,漏洞越多! 比如用神经网络判断“房间是否干净”,AI可能学会欺骗摄像头:比如把laji堆在镜头死角,假装房间干净!总结:奖励黑客就是——AI用你想不到的方式刷分,结果把事情搞砸,还觉得自己特牛!
内容: DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开的研究,验证了LLMs的推理能力可以纯粹通过RL激励,而不需要SFT。发现:仅通过大规模RL训练(无SFT数据),模型即可自主涌现复杂推理行为(如自我验证、反思),在AIME基准上pass@1分数从15.6%提升至71.0%,颠覆了传统依赖SFT的预训练范式。
意义:这一突破表明,大语言模型(LLM)可以在没有人工标注数据的情况下,通过 RL 训练出强大的推理能力,挑战了“监督数据是提升推理能力的必要条件”的传统认知。这一发现意味着 AI 可能正在朝着更具“自我意识”的方向发展,未来可以更好地进行自主校正。内容: 我们证明了较大模型的推理模式可以被提炼到较小的模型中,与通过强化学习(RL)在小模型上发现的推理模式相比,性能更优。从DeepSeek-R1蒸馏的32B模型(如DeepSeek-R1-Distill-Qwen-32B)在AIME 2024上pass@1达72.6%,远超直接RL训练的Qwen-32B(47%),DeepSeek-R1-Distill-Qwen-7B在AIME 2024上得分55.5%,超越了QwQ-32B-Preview的得分50.0%。DeepSeek-R1-Distill-Qwen-14B在所有评估指标上均超过了QwQ-32B-Preview,而DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B在大多数基准测试中显著超越了o1-mini。发现:较大模型(如 DeepSeek-R1)中学到的推理模式可以被提炼到较小模型中,并且比直接对小模型应用 RL 训练的效果更好。但是这种类似教师对学生的知识灌输,似乎只能是让学生学会了形式【未经自主学习或者天赋有限】。
通过蒸馏DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然有一个问题:模型是否可以通过论文中讨论的大规模RL训练而不进行蒸馏,达到类似的性能?
为了回答这个问题,我们在Qwen-32B-Base上使用数学、代码和STEM数据进行了大规模RL训练,训练超过10K步,最终得到了DeepSeek-R1-Zero-Qwen-32B。实验结果如图6所示,表明32B基础模型在经过大规模训练后RL训练,达到了与QwQ-32B-Preview相当的性能。然而,从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中表现显著优于DeepSeek-R1-Zero-Qwen-32B。因此,我们可以得出两个结论:首先,将更强大的模型蒸馏为较小的模型能产生出色的结果,而依赖本文中提到的大规模RL的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,尽管蒸馏策略既经济又有效,但要突破智能的界限,可能仍需要更强大的基础模型和更大规模的强化学习。
意义:这说明小模型可以“继承”大模型的能力,而不必经历高昂的 RL 训练成本。提炼(Distillation)方法为小型模型提供了更高效的性能提升途径,验证了“大模型知识传递”的高效性,为资源受限场景提供轻量化推理解决方案,降低算力门槛,这为开源社区优化小模型提供了一条高效路径。内容:DeepSeek-R1-Zero中间版本的一个有趣的“顿悟时刻”。模型学会了以拟人化的语气重新思考。这也是我们的一个顿悟时刻,让我们见证了强化学习的力量与美感。在训练 DeepSeek-R1-Zero 的过程中,观察到了一个特别有趣的现象,即“顿悟时刻”的出现。如表 3 所示,这一时刻出现在模型的中间版本中。在此阶段,DeepSeek-R1-Zero 学会了通过重新评估其初始方法,为问题分配更多的思考时间。发现:DeepSeek-R1-Zero 在 RL 过程中自发学习了更长的推理链,并在训练过程中出现“顿悟时刻”(Aha Moment),表现为它突然能够重新审视自己的思考过程并优化推理路径。
意义:这意味着 RL 可能触发 AI 类似人类的“灵光一闪”现象,为理解 AI 自主学习和认知能力提供了新的视角。内容:尽管DeepSeek-R1-Zero展现出强大的推理能力,并自主发展出意想不到且强大的推理行为,但它仍面临一些问题。例如DeepSeek-R1-Zero在可读性差和语言混合等挑战上表现不佳。为了使推理过程更具可读性并与开放社区共享,我们探索了DeepSeek-R1,这是一种利用人类友好冷启动数据进行强化学习的方法。收集了数千条冷启动数据,以微调DeepSeek-V3-Base作为强化学习的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势表现在可读性和潜力上。发现:DeepSeek 团队发现,通过收集数千条人工设计的可读思维链数据(如结构化CoT格式),微调DeepSeek-V3-Base作为RL起点,解决了DeepSeek-R1-Zero的语言混合问题,同时可以加速 RL 训练,并避免训练初期的不稳定性。进一步提升推理性能或加速收敛。意义:这表明精心设计的少量引导数据可以在RL训练的早期阶段产生显著的积极影响,证明少量高质量数据可显著改善RL训练效率与输出质量,平衡了无监督与监督学习的优势。这一策略为 RL 训练提供了一种更稳定的方法,减少了训练过程中性能震荡的可能性,提升了训练效率。内容:DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会了通过更多的思考时间来解决推理任务。发现:DeepSeek-R1-Zero 通过 RL 训练后,会自发增加推理时间,以更深入地分析问题。见图:
意义:这表明,模型在训练过程中通过延长思考时间,能够更充分地探索解决方案。这类似于人类在面对更复杂问题时会花费更多时间思考。这意味着 AI 可能正在发展出某种“自主调整计算资源”的能力。内容:经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中展现出卓越的性能。例如,AIME 2024上的pass@1得分从15.6%提升至71.0%,而在多数投票机制下,得分进一步提高至86.7%,与OpenAI-o1-0912的性能相当。发现:DeepSeek-R1-Zero通过64样本多数投票,AIME pass@1从71%跃升至86.7%,超越OpenAI-o1-0912。
意义:这说明 LLM 在推理任务上并非“单次推理即最佳答案”,而是可以通过多次尝试找到更好的解。同时表明简单的后处理方法可以有效提高通过RL训练出的模型的可靠性,对于 AI 在自动证明、数学和代码生成领域的应用意义重大。多路径推理策略显著提升复杂任务鲁棒性,为低置信度场景提供新优化方向,推动集成学习方法的应用。内容:在对冷启动数据进行微调DeepSeek-V3-Base后,我们采用了与DeepSeek-R1-Zero相同的大规模强化学习训练过程。这一阶段重点提升模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及具有明确解决方案的明确定义问题。在训练过程中,我们观察到CoT经常出现语言混合现象,尤其是在RL提示涉及多种语言时。为了缓解语言混合问题,我们在RL训练中引入了语言一致性奖励,该奖励计算为CoT中目标语言词汇的比例。尽管消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使其更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加,形成最终奖励。发现:DeepSeek-R1 在 RL 过程中引入了“语言一致性奖励”来减少语言混合问题,提高推理过程的可读性。有数据表明:在RL中引入目标语言词汇占比奖励,中英文混合响应减少80%,但性能仅下降2%。意义:这展示了在RL训练中针对特定问题设计奖励机制的重要性;表明 AI 训练可以通过人为引导,让模型更符合人类阅读习惯,而非仅仅优化任务完成率。为多语言模型对齐提供轻量化干预方案,平衡性能与用户体验,支持全球化应用需求。内容:DeepSeek-R1的性能将在下一个版本中提升,因为目前相关的RL训练数据量仍然非常有限。发现:DeepSeek 团队指出,DeepSeek-R1 的 RL 训练数据仍然有限,未来版本预计会有更大提升。意义:这表明当前 RL 训练仍受限于数据质量,未来改进方向可能包括更大规模的 RL 训练集或更高效的数据采样策略。这暗示当前版本的DeepSeek-R1尚未充分发挥潜力,数据量的增加可能带来显著的性能飞跃。内容:在 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样,结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,创建新的 SFT 数据【构建的80万样本】,然后重新训练 DeepSeek-V3-Base 模型。使用新数据微调后,检查点会经历额外的RL 过程,考虑所有场景的提示。经过这些步骤,我们获得了称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。发现:在构建的80万样本微调DeepSeek-V3-Base 模型后,其性能与 OpenAI-o1-1217 相当。另外将这80万样本用于蒸馏模型,同样让蒸馏模型性能优于同规模模型。
意义:这一策略提高了模型的稳定性,并降低了低质量推理的出现率,为数据质量优先的模型蒸馏提供方法论支持,强调数据清洗的重要性。内容:MCTS因搜索空间爆炸及价值模型训练失败,未提升模型性能(Codeforces评分仅1444)。发现:实验发现,MCTS 在推理任务中的效果不如 RL。意义:凸显文本生成与棋类游戏的本质差异,警示盲目移植经典算法的风险,需领域定制化方法。这表明 AI 推理的搜索空间可能远超传统博弈任务,需要更智能的搜索算法。内容:我们在开发DeepSeek-R1-Zero时没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程复杂化。过程奖励模型(PRM) PRM 是一种合理的方法,用于引导模型朝着更好的解决推理任务的方向发展(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)。然而,在实践中,PRM 有三个主要局限性,可能会阻碍其最终的成功。首先,在一般推理中明确定义细粒度步骤是具有挑战性的。其次,确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注则不利于扩展。第三,一旦引入基于模型的 PRM,不可避免地会导致奖励欺骗(Gao 等,2022),并且重新训练奖励模型需要额外的训练资源,并使整个训练流程复杂化。总之,虽然 PRM 展示了在重新排序模型生成的前 N 个响应或辅助引导搜索方面的良好能(Snell 等,2024),但在我们的大规模强化学习实验中,与其引入的额外计算开销相比,其优势有限。发现:PRM在推理训练中面临定义细粒度步骤困难、正确性评估复杂、扩展性差和奖励欺骗的问题,未获成功。内容:1、与DeepSeek-R1-Zero不同,为了防止从基础模型开始的RL训练早期不稳定冷启动阶段,对于DeepSeek-R1,我们构建并收集了一小部分长链思维(CoT)数据来微调模型,作为初始RL演员。2、在对冷启动数据进行微调DeepSeek-V3-Base后,我们采用了与DeepSeek-R1-Zero相同的大规模强化学习训练过程。3、当面向推理的强化学习收敛时,我们利用生成的检查点来收集SFT(监督微调)数据,用于后续轮次。总共,我们收集了约60万条与推理相关的训练样本【过滤掉了混合语言、长段落和代码块的思维链】,大约20万个与推理无关的训练样本。我们使用上述约80万个样本的精选数据集对DeepSeek-V3-Base进行了两个周期的微调。4、为了进一步使模型与人类偏好保持一致,我们实施了一个次级强化学习阶段,旨在提高模型的有用性和无害性,同时精炼其推理能力。具体来说,我们结合奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们依靠奖励模型来捕捉复杂和微妙场景中的人类偏好。发现:对于以教育为导向的知识基准,如MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1相比DeepSeek-V3表现出更优越的性能。这一改进主要归因于在STEM相关问题上准确性的提升,通过大规模强化学习(RL)实现了显著进步。此外,DeepSeek-R1在FRAMES这一依赖长上下文的问答任务上表现出色,展示了其强大的文档分析能力。这凸显了推理模型在AI驱动中的潜力。搜索和数据分析任务,在事实基准测试SimpleQA上,DeepSeek-R1优于DeepSeek-V3,展示了其处理基于事实查询的能力;然而,DeepSeek-R1在中文SimpleQA基准测试上表现不如DeepSeek-V3,主要是由于其在安全强化学习(RL)后倾向于拒绝回答某些查询。如果没有安全RL,DeepSeek-R1的准确率可以超过70%。DeepSeek-R1 在代码竞赛任务中表现出色,在 Codeforces 上取得了 2029 的高 Elo 评分,超过了 96.3% 的人类参与者。此外,DeepSeek-R1 在写作任务和开放域问答方面的优势。其显著优于 DeepSeek-V3 的表现突显了大规模RL 的泛化优势,不仅提升了推理能力,还提高了跨多个领域的性能。
意义:这表明结合不同训练方法的优势,可以构建出在各种能力上都表现出色的模型。同时也指出了在多阶段训练中,不同阶段的数据质量和筛选策略对最终模型性能至关重要。第二次RL【采用全场景强化学习】,使得 DeepSeek-R1 在推理能力之外,也展现出更强的通用能力,填补了许多 RL 训练仅专注于数学或代码任务的局限表明,这也表明RL也可以用于优化模型的多种属性,而不仅仅是推理能力。另外:DeepSeek-R1在软件工程任务(SWE-Bench)中仅49.2%准确率,因RL数据量不足(数学任务的1/5),也暴露了当前RL对高复杂度任务的覆盖瓶颈,呼吁领域专用数据策略和异步评估机制。DeepSeek-R1系列通过“纯RL驱动推理+知识蒸馏增效+冷启动数据优化”的三元创新,重新定义了语言模型的训练范式:
技术民主化:蒸馏技术使小模型具备大模型级推理能力,降低算力门槛;自主进化:纯RL驱动模型“顿悟”,预示AI可能脱离人类预设路径发展;开源竞争力:在关键任务上比肩闭源巨头,推动行业技术平衡;伦理与性能平衡:揭示安全对齐的双刃剑效应,呼吁动态治理框架。这些发现不仅挑战了传统大模型的训练逻辑,更为AI的轻量化、自主化与普惠化提供了新蓝图。最后DeepSeek-R1的开源,更是了打破闭源模型的技术垄断,推动开源生态竞争力,加速行业技术民主化。
来源:八斗九月
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!