Deepseek 通过算法优化实现 AI 平权

B站影视 韩国电影 2025-04-05 12:42 1

摘要:AI 传统的训练方法包括预训练(Pre-Training)以及微调(Fine-Tuning),主要过程可以简化为:随机模型 → 预训练(爬取数据)→ 预训练模型 → 微调(领域数据)→ 微调模型 → 提示/上下文学习 → 实际应用。具体来看,从一个随机初始化的

1.Deepseek R1 版本实现重要算法创新

AI 传统的训练方法包括预训练(Pre-Training)以及微调(Fine-Tuning),主要过程可以简化为:随机模型 → 预训练(爬取数据)→ 预训练模型 → 微调(领域数据)→ 微调模型 → 提示/上下文学习 → 实际应用。具体来看,从一个随机初始化的大语言模型(Random Model)开始,模型参数未经训练,接着使用大规模、多样化的爬取数据进行无监督学习。这些数据通常包含网页文本、书籍、代码等。

通过预测下一个词或掩码词等任务,学习通用语言表示,得到一个预训练模型,具备通用语言理解能力。接着通过在监督微调(SFT)加入大量的思维链(COT)范例,用例证和复杂的如过程奖励模型(PRM)之类的复杂神经网络奖励模型,来让模型学会用思维链思考,使其适应具体任务。

DeepSeek-R1-Zero 训练方法降低计算资源消耗。DeepSeek-R1-Zero 在训练方法上的核心创新点在于通过极简的规则化奖励设计(准确性奖励和格式奖励)来替代复杂的传统的微调(SFT 以及 RLHF),从而实现高效的推理能力优化。

规则化奖励设计具体包括:

1. 准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2. 格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签(该标签为思考的开闭过程)之间。没这么做就扣分,做了就加分。同时让模型在 GRPO(Group Relative Policy Optimization)的规则下自我采样+比较,自我提升。即通过组内样本的排序(如“组 1 > 组 2”)比较来计算策略梯度,有效降低了训练的不稳定性,同时提高了学习效率。该训练方法首先可以使训练效率的提升,所需训练时间更短,其次是省去了 SFT 和复杂的奖惩模型,从而降低计算资源消耗。

此外,DeepSeek-R1-Zero 训练方法可以快速提高模型的推理能力。根据 DeepSeek 的研究论文,大模型在训练学习的过程中,响应长度会出现突然的显著增长后又回落,这些"跳跃点"可能暗示模型推理解题策略的质变,即模型推理能力的显著提升。

Deepseek R1-Zero 在数学界享有盛誉的 AIME 竞赛中从最初的 15.6%正确率一路攀升至71.0%的准确率。AIME 的题目需要深度的数学直觉和创造性思维,而不是机械性的公式应用。

2. 创新强化学习技术助力 Deepseek V3 完成小版本升级

3月25日,DeepSeek 宣布V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,根据官方公众号描述,DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base模型,仅借鉴了 DeepSeek-R1 版本模型训练过程中所使用的强化学习技术,便大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。

综上, DeepSeek-R1 版本模型的算法创新使得模型在极少标注数据条件下显著地提升模型推理能力,在数学、代码、自然语言推理等任务上性能对齐海外模型。过往大模型遵循Scalling Law 准则,头部厂商能够凭借先发以及投入优势吸引资源聚集构建自身护城河,Deepseek R1 则打破了在算力和芯片上“大力出奇迹”的既定格局,极大冲击头部模型厂商壁垒,AI 产业链价值链分配或向中小厂商倾斜。

来源:思瀚研究院

相关推荐