摘要:DeepSeek 坚定开源路线,密集更新 MoE、推理、多模态模型。近期,DeepSeek 连续发布并开源多个大模 型,其低成本、高性能的特性迅速引发全球用户的关注。其中,2024 年 12 月 26 日发布的 DeepSeek-V3 为 671B 参数的自研
1.1 第一问:DeepSeek 的用户量趋势?
DeepSeek 坚定开源路线,密集更新 MoE、推理、多模态模型。近期,DeepSeek 连续发布并开源多个大模 型,其低成本、高性能的特性迅速引发全球用户的关注。其中,2024 年 12 月 26 日发布的 DeepSeek-V3 为 671B 参数的自研 MoE 模型,运行时仅需激活 37B,在 14.8T token 的数据上进行了预训练;2025 年 1 月 20 日发布 的 DeepSeek-R1 为 660B 的高性能推理模型,对用户开放思维链输出,允许用户通过蒸馏技术借助 R1 训练其 他模型;2025 年 1 月 27 日,DeepSeek 在 Hugging Face 平台上传了视觉模型 Janus-Pro 和多模态理解模型 JanusFlow -1.3B,进一步在图像领域发力。
DeepSeek Web端与 APP 端访问量持续增长,春节信息传播下沉加速产品关注度裂变。Web 端,2024 年 10 月至 2024 年 12 月 DeepSeek 访问量分别为 245/422/1101 万,其中 11 月和 12 月分别同比增长 72.24%/160. 90%, 12 月受全新开源模型 V3 促进访问量大幅增长;APP 端,DeepSeek 2025 年 1 月 10 日(官方公众号 1 月 15 日正 式发文)在 iOS/Android 上线官方 APP,而后受益于 1 月 20 日发布 R1 模型的高性能、低成本,叠加春节期间 信息传播下沉,产品关注度呈裂变式增长。具体而言,DeepSeek APP 安卓/iOS 端国区单日下载量均于 1 月 26日前后迎来陡增,至 1 月 29 日单日下载量分别达到 784.15/29.92 万;同时,DeepSeek 安卓端在华为应用商店 下载排行中位列第四,iOS 端则霸榜全球 173 个地区中 160/162/171 个总榜(免费)/应用(免费)/效率(免费) 第一;此外,从产品发布日起日活用户看,DeepSeek 第 5 天超过 ChatGPT,第 15 天以 259 万日活达到 ChatGPT 的 2 倍,亦为全球增速最快的 AI 原生应用,第 18 天达到 1500 万日活,而 ChatGPT 上线第 244 天才达到 1500 万 DAU。
我们认为,DeepSeek 用户数将持续高速增长。一方面 DeepSeek 作为开源路线的坚定践行者,有望受到全 球开发者的高度关注;另一方面受益于春节期间信息传播下沉,DeepSeek 的国内渗透率将持续提升。
1.2 第二问:R1 和 Janus-pro 模型的性能如何?
DeepSeek-R1 在推理任务上基本实现与 OpenAI-o1 相当的性能,较 o3 模型仍有差距。DeepSeek 在 R1 模 型的测试过程中,选取英文、中文、数学、代码等基准测试,与 Claude-3.5、GPT-4o、DeepSeek-V3、OpenAI o1、 OpenAI o1-mini 等模型进行比较: 教育为导向的知识任务:在以 MMLU(R1 90.8 分;V3 88.5 分;o1 91.8 分)和 GPQA Diamond(R1 71.5 分;V3 59.1 分;o1 75.7 分;o3 87.7 分)为代表的知识基准上,R1 相比 V3 表现出更优越的性能,主因大规模强化学习(RL)促进 STEM 相关问题上准确性显著进步;在依赖长上下文的 FRAMES(R1 82.5 分;V3 73.7 分)基 准,R1 同样展示了强大的文档分析能力。 中英文搜索和数据分析任务:在英文事实基准测试 SimpleQA(R1 30.1 分;V3 24.9 分;o1 47.0 分)上,R1 优于 V3,展现了模型基于事实的查询能力;而在中文事实基准测试 C-SimpleQA(R1 63.7 分;V3 68.0 分)上, R1 表现不如 V3,主要系安全强化学习后模型倾向于拒绝回答某些查询。如果没有安全 RL, R1 的准确率可以 超过 70%。此外,R1 模型在 IF-Eval(R1 83.3 分;V3 86.1 分)、AlpacaEval2.0(R1 87.6 分;V3 70.0 分)和 ArenaHard(R1 92.3 分;V3 85.5 分)等基准测试中同样表现较好,展现了模型在遵循格式指令、写作任务和开 放域问答上的能力。 数学任务:在数学任务上, R1 表现出与 o1 相当的性能,优于其他非推理模型,突出了推理模型在数学 测试中的主导地位。例如在 AIME 2024 基准上,R1/V3/o1/o3 分别得分 79.8/39.2/79.2/96.7 分;在 Math-500 基准 上,R1/V3/o1 分别得分 97.3/90.2/96.4 分。 编码任务:推理模型在数学测试中同样表现更佳,例如在 Codeforces 基准上,R1/V3/o1/o3 分别得分 2029/1134/2061/2727 分,分别超过 96.3%/58.7%/96.6%/99.9%的人类参赛者;在 SWE-bench Verified 基准上, R1/V3/o1/o3 分别得分 49.2/42.0/48.9/71.7 分。
蒸馏技术能显著提升小模型推理能力。通过向更高效的小模型蒸馏 DeepSeek-R1 的输出,能够显著提升小 模型推理能力。例如,向 Qwen2.5-Math-7B 蒸馏 R1 模型得到的 DeepSeek-R1-Distill-Qwen-7B(简称 R1-7B,下 同),全面超越非推理模型如 GPT-4o;向 Qwen2.5-14B 蒸馏得到 R1-14B 在所有评估指标上均超过了 QwQ- 32BPreview;而向 Qwen2.5-32B 和 Llama-3.3-70B-Instruct 蒸馏得到的 R1-32B 和 R1-70B 在大多数基准测试中显著 超越了 o1-mini。
Janus-Pro 在多模态理解和生成方面优于统一模型和单一功能模型。Janus-pro 主要延续 Janus 通过解耦多 模态理解和生成的研究思路,通过优化训练策略、扩展训练数据和模型规模等方面提高模型性能: 多模态理解:在 Janus 测试过程中选取 POPE、MME-P、MMB、SEED、MMMU、MM-Vet 等广泛认可的图 像视觉语言基准测试,同时包括了一种用于真实世界视觉推理和组合式问答的新数据集 GQA。与其他前沿图像 理解生成统一模型和仅用于理解的模型相比,Janus-Pro 取得了总体最佳的结果,例如 Janus-Pro-7B 在多模态理 解基准 MMBench 上得分 79.2,超越了包括 Janus(69.4)、TokenFlow(68.9)和 MetaMorph(75.2)等,主因其 将多模态理解和生成的视觉编码解耦,缓解了这两个任务之间的冲突。此外,Janus-Pro 与规模更大的模型相比 仍具竞争力,例如 Janus-Pro-7B 在除 GQA 外的其他基准测试上的表现都优于 TokenFlow-XL(13B)。 文本-图像生成:为评估 Janus 视觉生成能力,DeepSeek 采用 GenEval(文本到图像构图能力基准测试)和 DPG-Bench(密集提示图基准测试)两个工具进行测试。Janus-Pro-7B 在 GenEval 上的总体准确率达到 80%, 超过了所有其他统一模型或仅用于生成的模型,包括 Transfusion(63%)、SD3-Medium(74%)和 DALL-E 3 (67%),反映 Janus-Pro 具有更好的指令跟随能力。同时,Janus-Pro 在 DPG-Bench 上的得分为 84.19,超过了 所有其他方法,表明 Janus-Pro 在遵循用于文本到图像生成的密集指令方面表现出色。
我们认为,DeepSeek-R1 性能已基本达到 OpenAI-o1 水平,较 o3 模型基准测试表现仍有不小差距,随着 DeepSeek 在 MoE 架构、强化学习等技术上进一步迭代,推理模型性能表现有望持续增长;Janus-Pro 在多模态 理解和生成方面则相对表现较好,一定程度验证了图像理解和生成解耦思路的可行性。
1.3 第三问:如何看待 DeepSeek-V3 模型的训练成本?
DeepSeek 通用及推理模型成本相较于 OpenAI同类模型下降至数十分之一以下: 通用模型方面,2024 年 12 月 26 日 DeepSeek-V3 更新上线,模型 API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。此外,V3 模型设置长达 45 天的优惠价格 体验期:2025 年 2 月 8 日前,V3 的 API 服务价格仍保持每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未 命中),每百万输出 tokens 2 元。与此同时,OpenAI GPT-4o 的 API 服务定价为每百万输入 tokens 1.25 美元 (缓存命中)/ 2.5 美元(缓存未命中),每百万输出 tokens 10 美元。 推理模型方面,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中), 每百万输出 tokens 16 元。而 OpenAI o1 的 API 服务定价为每百万输入 tokens 7.5 美元(缓存命中)/ 15 美元 (缓存未命中),每百万输出 tokens 60 美元。
需要注意的是,不同模型 token 切分方法可能不同,通常 1 token 可对应 1-2 个中文汉字,或对应 3-4 个英 文字符,或 0.75 个英文单词。
DeepSeek-V3(R1 的基础模型)总训练成本仅为 557.6 万美元,但不包括架构、算法等成本。以 H800 算 力计算,DeepSeek-V3 预训练阶段在不到两个月的时间内完成,耗费 266.4 万个 GPU 小时,加上上下文长度扩 展所需的 11.9 万个 GPU 小时和后训练阶段的 0.5 万个 GPU 小时,DeepSeek-V3 的完整训练仅需 278.8 万个 GPU 小时;假设 H800 GPU 的租用价格为每 GPU 小时 2 美元,我们的总训练成本仅为 557.6 万美元。需要 注意的是,上述成本仅包括 DeepSeek-V3 的正式训练成本,不包括与架构、算法或数据的前期研究及消融实验 相关的成本。
根据我们测算,GPT-4 需要 2.5 万张 A100 训练 95 天(5700 万 A100 GPU小时),OpenAI o1 需要用 3.2 万张 H100 训练 90 天(6912 万 H100 SXM GPU小时):1)GPT-4 由 16 个 111B 的 MoE模型构成,其中两个 用于向前传播,另有 55B 被用做注意力机制的共享,则 GPT-4 的激活参数量约为 280B,我们假定 o1 模型激活参数量是 GPT-4 的两倍,达到 560B;2)GPT-4 的预训练数据集 token 量为 13B,我们假定 o1 模型接近其两倍, 达到 25B;3)GPT-4 的训练时间约为 90-100 天,我们取中间值 95 天,并假定 o1 的训练周期为 90 天;4)GPT - 4 的 GPU 利用率在 32%到 36%之间,我们取中间值 34%,并假定 o1 GPU 利用率也为 34%;5)根据 OpenAI 在 Scaling Laws 论文中给出的经验公式计算(C = rT ≈ 6*P*D,P 为模型参数量,D 为训练集 token 大小,r 为训 练集群硬件 FLOPS 总吞吐),则 OpenAI o1 预训练需要用 3.2 万张 H100。
算法迭代、架构升级促进 DeepSeek-V3 模型训练成本降低,符合产业趋势。相较于 GPT-4 和 o1 模型, DeepSeek-R1 的基础模型 DeepSeek-V3 训练成本明显更低,结合 V3 技术报告和上述计算过程,我们认为成本优 化主要缘于:1)V3 模型通过 DeepSeekMoE 架构(3.1 中将进一步说明),使用更细粒度专家模型,同时隔离部 分共享专家,提高计算资源利用率,激活参数少(仅 37B),算力消耗低;2)V3 模型采用 MLA 算法(3. 1 中将 进一步说明),通过低秩联合压缩注意力键值,减少推理时的键值(KV)缓存,降低计算量;3)Dual Pipe 框架 实现高效流水线并行,或显著提高 GPU利用率;4)DeepSeek 提出了一种利用 FP8 数据格式进行训练的细粒度 混合精度框架,通过低精度训练优化训练效率。
2.1 第四问:DeepSeek-V3/R1 技术革新有哪些?
通过架构和基础设施创新,DeepSeek-V3 实现了高效训练,奠定 R1 模型优化基础。架构方面,DeepSeekV3 延续了 V2 模型的 MLA 和 DeepSeek MoE 架构,同时进一步开创了无辅助损失的负载均衡策略,并设定了 多 token 预测(MTP)训练目标以增强性能: 多头潜在注意力(MLA):LLM 的核心机制是自注意力(Self-Attention),其要求模型在生成每个 token 时 考虑之前所有词的关系,则假设文本长度 n 时总体复杂度为( 3 ) = ( 2 );过去的研究提出了 KV Cache 方 法,利用键值对(KV)存储已计算的注意力信息,此时总体复杂度降低为( 2 );而 MLA 则进一步通过投影的方式,将 token 的相异信息通过投影矩阵存储,在几乎不损失信息的情况下减少键值的缓存需求。 DeepSeekMoE:专家混合模型(MoE)是当前大模型技术中对前馈神经网络(FNN)的一种替代方案。不 同于 FNN 需要全部权重参与计算,MoE 利用门控机制判断输入数据需要由哪些专家模型参与处理。相较于主 流 MoE模型,DeepSeekMoE 使用更细粒度的专家,并隔离一些模型作为共享专家,进一步优化了激活参数。此 外,为解决专家负载不平衡导致的路由崩溃和计算效率降低,DeepSeek 提出无辅助损失负载均衡策略,为每个 专家模型添加可动态调整的偏差项,确保训练过程中专家负载平衡、提高模型性能。
多 token 预测(MTP):主流大模型 token-by-token 生成序列,而每次 token 生成需要频繁与访存交互,从 而因为访存效率形成训练或推理的瓶颈。MTP 方法主要将单 token 的生成,转变成多 token 的生成,提升训练 和推理的性能。DeepSeek 主要对过往 MTP 算法进行了一定优化,顺序预测额外 token,并在每个预测深度保持 完整的因果链。
除了基础架构,DeepSeek 还在基础设施方面进行了一定优化。例如设计了一种创新的管道并 行算法 DualPipe,在每一对前向和后向块内重叠计算和通信,提高通信效率、加速了模型训练;提出了一种用于 FP8 训练的混合精度框架,其中大多数计算密集型操作在 FP8 精度下进行,而一些关键操作则战略性地保持在原始 数据格式以平衡训练效率和数值稳定性;训练过程中,采用英伟达 PTX(并行线程执行)汇编级编程替代标准 CUDA 方案,实现了硬件级深度优化,减少了计算冗余,提高了推理速度。
R1-Zero 验证纯强化学习(RL)对推理能力的提升,R1 则强调冷启动和多阶段训练的平衡。R1-Zero 的特别之处在于,其无需任何监督微调数据即可获得强大的推理能力,反映了模型仅通过强化学习就能有效学习和 泛化的能力。具体而言,R1-Zero 模型在 RL 过程中延续了 DeepSeek-V3 组相对策略优化算法(GRPO),通过组 内奖励对比优化策略,而不需要额外的判别器,最终实现训练集上的平均响应长度持续提升,自然地学会了通 过更多的思考时间来解决推理任务;此外,R1-Zero 训练过程自然地涌现出“思考能力”,即模型自发学会了重 新评估其初始回答,并为问题分配更多的思考时间,这种“反思”的特性能够一定程度解决大模型幻觉问题(大 模型逐 token 输出,过去没有机制去纠正已经输出的错误,反而会继续用错误掩盖先前的问题,带来幻觉问题)。 尽管 R1-Zero 模型展现了强大的推理能力,但仍面临可读性差和语言混合等挑战,R1 模型则通过冷启动和 多阶段训练解决了上述问题。R1 同样从 DeepSeek-V3-Base 基础模型出发,经过数千条优质长链思维(CoT)数 据微调(SFT)作为冷启动,使模型输出更符合要求、可读性更强;而后,针对微调后的模型采用与 R1-Ze ro 相 同的大规模强化学习,并引入语言一致性奖励,直至模型在推理任务上达到收敛;面向推理的强化学习收敛后, 利用生成的检查点收集新的 SFT 数据,从而融入来自其他领域的数据,以增强模型在写作、角色扮演和其他通 用任务中的能力;最后,为了进一步使模型与人类偏好保持一致,实施次级 RL阶段,旨在提高模型的有用性和 无害性、精炼其推理能力。通过冷启动和多阶段训练,R1 模型最终具备较强的推理性能,同时在可读性上表现 较好。
R1 系列模型提供了 RL Scaling Law的可行方向。实际上,在 OpenAI 推出 o1 模型时即发现了推理性能随 着训练时间和测试时间计算而平稳提升的“RL Scaling law”,但业内尚未通过过程奖励模型(PRM)和蒙特卡洛 树搜索(MCTS)等方法做出较好的效果,R1 的技术报告更是提到 PRM 和 MCTS 存在难以规模化拓展、奖励 欺骗等问题。R1 模型的技术报告提供了一种多阶段训练的方式,其中在第一阶段 RL过程中,研究人员可以通 过扩大 RL训练集的方式提升模型性能,或为一种可以验证的“RL Scaling law”方向;OpenAI 首席研究官 Mar k Chen 也承认,“DeepSeek 的确独立发现了一些 o1 的核心思路”。
蒸馏使小模型具备较强逻辑推理能力的思路或与 OpenAI o1-mini 不同。据张俊林分析,o1 系列模型更可 能是重新训练的(OpenAI 多次强调 o1-mini 逻辑推理能力强,但在世界知识方面弱;如果其基于 GPT 系列模型 而来,世界知识应该不会弱于 GPT 4o-mini),而 DeepSeek-R1 则是在 V3 的基础上通过强化学习训练得到。因 此,DeepSeek 通过向更高效的小模型蒸馏 DeepSeek-R1 的输出,显著提升小模型推理能力,更可能走出了与 OpenAI o1-mini 不同的道路,从而实际上打破了之前“小模型逻辑推理能力难以通过蒸馏提升”的研究结论。 此时,小模型有望通过“能力分治”(DCA)的模式将语言、世界知识及逻辑推理三个能力解耦,即语言能 力靠小模型自身、逻辑推理靠 RL+蒸馏,世界知识靠外挂 RAG,从而具备目前最强大模型的能力,对于中小型 开发者而言,部署模型也将更加友好。
我们认为,DeepSeek-V3/R1 系列模型的核心突破在于 1)技术及架构升级显著优化模型训练成本,即工程 优化了 MoE模型架构,预计未来各厂商仍将围绕 MoE模型进行注意力头的架构优化;2)组相对策略优化算法 (GRPO)实质上仅依赖模型自身近些迭代,实现了“反思能力”;3)提供了一种具体可行的“RL Scaling law” 方向,各厂商或将跟进并继续探索其他方向;4)蒸馏使小模型具备较强逻辑推理能力,有望促进中小型开发者 推出相关应用。
2.2 第五问:Janus 系列模型技术革新有哪些?
Janus 系列模型缓解多模态理解和生成的冲突,提升模型能力表现。多模态理解与生成任务本身存在视觉 编码器需求的冲突,其中在理解任务中,视觉编码器的目的是提取高层次的语义信息并进行表示;而生成任务 则主要关注生成局部细节并在图像中保持全局一致性,因此需要低维度编码表示空间结构和纹理细节。Janus 系 列模型的核心技术在于实现多模态理解与生成的解耦,通过 2 个独立的视觉编码路径,缓解多模态理解和生成 的冲突,从而提高模型的能力表现和可扩展性。
多模态生成模型架构尚无定论,自回归和扩散模型持续发展。目前图像生成模型主要包括以 Transformer 为 代表的自回归生成、以 DDPM、LDM、DiT 为代表的扩散模型,以及 MaskGIT、MAR 等掩码自回归图像生成 三类架构。自回归架构通过算法逐个生成像素,DeepSeek 的 Janus 系列模型为其中代表;掩码自回归则优化了 单次像素生成数量和顺序,提高了自回归模型的速度和表现;扩散模型的代表包括 Sora,其将图像生成表示成 噪声图像变化至目标图像的过程,输入输出自始至终都是完整图像。目前,自回归和扩散模型均有前沿技术持 续性突破,带来模型能力的持续提升。
我们认为,多模态模型整体仍处于技术探索过程中,Janus 系列核心在于提供了一种理解和生成解耦的架构, 一定程度提升了模型表现,后续自回归和 DiT 技术将进一步发展,带来多模态模型性能的持续优化。
2.3 第六问:DeepSeek 数据集的特点是什么?
合成(生成)数据在大模型训练过程中发挥着重要作用。在高质量训练数据耗尽,以及互联网中充斥大量 噪声数据的背景下,合成数据已成为大模型训练过程中数据集的重要来源, 截至 2024 年 9 月,在 Hugging Face 平台上标注为 “合成” 的数据集已超过 1000 个。具体而言,合成数据主要由算法、模型生成,为大模 型训练提供更丰富且针对性强的信息,帮助拓展模型性能: 通用大模型:在通用大模型训练中,合成数据主要用于丰富数据集,提升模型性能。以 DeepSeek-V3 的训 练为例,其在监督微调阶段借助 DeepSeek-R1 模型生成样本数据,经 RL 训练后用拒绝采样筛选高质量数据用 于最终模型训练,有效提升了模型的推理能力。 推理模型:在推理模型训练中,合成数据主要用于优化训练流程。例如,DeepSeek-R1 在冷启动阶段利用 R1-Zero 生成+人工标注数据进行微调,并在监督微调阶段通过 V3 模型收集了约 60 万条与推理相关的训练样 本,以及约 20 万条与推理无关的训练样本。此外,R1 向小模型蒸馏的过程实际上也是通过 R1 生成数据对小模 型进行监督微调实现的。 多模态模型:多模态模型训练中,合成数据能改善数据质量,显著强化视觉生成能力。Janus - Pro 在预训 练阶段相较于 Janus 引入约 7200 万个合成美学数据样本,使真实数据与合成数据比例达到 1:1,从而加速了 模型收敛速度,提升图像生成质量。而 Kimi-1.5 作为以强化学习方式训练的多模态大模型,分别在预训练阶段 通过合成数据强化了推理和基于知识任务的解答能力,在多模态训练阶段合成了图像文本交错数据。
GRPO 算法在一定程度上使模型摆脱人类经验的束缚。如 2.1 所述,R1 - Zero 模型在 RL 过程中延续了 DeepSeek -V3 组的相对策略优化算法(GRPO)。该算法通过组内奖励对比优化策略,无需额外的判别器,最终 实现了训练集上平均响应长度的持续提升,使模型自然地学会通过更多思考时间来解决推理任务。实际上,GRP O 对于 RL 数据集的处理同样具有重要意义。具体而言,PPO 算法需要依赖价值模型估计状态价值,以帮助计算 优势函数;而 GRPO 算法只对输出的语言内容进行相对优势计算,不需要设计价值模型。价值模型的设定本身 就包含了人类偏好,这种偏好通过人类经验限定了数据集的价值。而 GRPO 算法本质上可看作模型生成内容的 自我博弈,它能让模型摆脱人类经验的束缚,通过提升思考深度不断拓展性能,最终甚至可能超越人类水平。
我们认为,DeepSeek-V3/R1/Janus 等模型对于合成数据的应用符合大模型研究趋势,而 GRPO 算法则进一 步使模型在 RL过程中摆脱了人类经验的限制,从而能够最大程度挖掘数据集的价值,向模型超越人类,最终实 现 AGI 的道路进发。
2.3 第七问:Scaling Law 到底是否有效?
训练侧 Scaling law推动模型能力持续提升,但仍面临技术、算力、数据的制约。早在 2020 年,OpenAI 即在论文中提出了“Scaling law”,其内涵在于大模型的最终性能主要与计算量、模型参数量和训练数据量三 者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。在“Scaling law”的思路下,业内追求在 训练侧用更多的高质量数据,训练更大参数规模的模型,尤其在 MoE架构并行计算的加持下,大模型参数甚 至能够提升至万亿以上,极大程度提高了模型的效果。 然而,受到技术、算力、数据的制约,训练侧“Scaling law”正面临瓶颈:1)更高参数规模的模型训练 比较复杂:当参数规模提升到万亿规模,模型进一步调整的技术方式仍待突破;2)算力规模一定程度制约了 模型发展:英伟达 H100 目前可以做到单一集群 3.2 万张卡充分互联,每 2 小时会出错一次(Founder Park 访 谈拾象科技 CEO 李广密)。一旦算力集群增加到 10 万卡,可能每 20-30 分钟即会出错一次,对数据中心的 运维能力要求较高,否则会导致算力利用率明显下降。此时需要性能更强的算力卡出现。3)高质量数据缺 失:早有消息称大模型训练已经耗尽了高质量数据,因此如果只是简单提升训练集规模,往往重复的数据占据 了主要部分,从而对模型能力的提升有限。而数据合成的技术仍未能突破,同样一定程度上制约了模型的发 展。
思维链等方式打开推理侧大模型能力提升空间。当训练侧“Scaling law”进度相对放缓,OpenAI 于 2024 年 9 月发布了系列新模型 o1,其利用强化学习技术,通过提高推理侧的思考时间,大幅优化了模型表现;还 能够在训练过程中生成高质量数据,解决天然数据缺失的问题。以思维链技术为例,其类比人类思考过程,使 大模型在推理过程中把复杂问题拆解成若干简单步骤,从用户提出的问题出发,逐步生成正确答案。OpenAI o1 模型性能随着训练时间和测试时间计算而平稳提升,后训练及推理阶段思考深度(时间)或将成为 新的 “Scaling law”;相较于 OpenAI 未开源推理算法,DeepSeek-R1 系列模型提供了 RL Scaling Law 的可行方 向,有望促进各厂商跟进并继续探索其他推理侧拓展方向。
Scaling law三条路径齐头并进,助力模型性能持续提升。正如英伟达 CEO 黄仁勋在 CES 2025 上的主题发 言提到的,o1 模型推出后,大模型 Scaling law 已经实际上分为了三个路径: Pre-Training Scaling:对应 OpenAI 2020 年提出的结论,训练数据规模越大、模型规模越大、计算资源投 入越多,AI 模型的性能就会相应提升。尽管 Pre-Training Scaling 目前受技术、算力、数据影响遭遇瓶颈,但更 强大的基础模型仍然是各厂商追求的主要方向,DeepSeek-R1 的技术报告同样提出,“更大基础模型发现的推理 模式对于提升推理能力至关重要”。未来随着 MoE架构、模型 Infra 等方面的优化,Pre-Training Scaling 有望持 续发展。
Post-Training Scaling: 包括强化学习和人类反馈等技术,通过输入大量优质的提示,优化模型性能表现。 实际上,受限于人类工作效率,原有的人类反馈强化学习(RLHF)存在难以规模化扩张的问题(例如人工标注 数据效率较低、不同标注者标准不一致等),而 DeepSeek-R1 纯 RL的技术方案实际上打破了这种限制,为各厂 商提供了 Post-Training Scaling 的可行方案。 Test-Time Scaling:强调重新调配资源,即在推理阶段考虑投入多少算力,并利用思维链将问题分解成若干 个小步骤逐一解决。通过在模型推理阶段更加深入的思考,模型将具备更强劲的性能。
我们认为,Scaling Law 仍有效,同时 RL 技术的不断迭代为模型能力的规模化扩张带来了新的方向。特别 是 DeepSeek 通过架构和技术创新,提出了纯 RL 和分阶段的模型训练方法,并实现了较好的性能表现。预计各 厂商将陆续跟进 DeepSeek 的算法方向,并不断对架构进行调整,以探索出更为理想的模型优化方式。
3.1 第八问:R1 是否意味着 AI 平权已经实现?
DeepSeek-R1 开源引发全球复现热潮,小模型+RL 实现“反思”涌现。在美国对中国实施 AI 芯片封锁 的背景下,DeepSeek 以极低的成本成功训练出跻身全球第一梯队的推理模型 R1。同时,DeepSeek 完全开源 了模型权重,所遵循的 MIT License 开源协议极为宽松,允许其他开发者将模型用于商业用途并进行模型蒸 馏,被 Facebook 首席人工智能科学家杨立昆誉为“开源模型对闭源模型的胜利”。 R1 发布以来,全球前沿团队积极复现,目前已取得较好成效。其中,UC 伯克利的团队在 CountDown 游 戏中复现了 DeepSeek R1-Zero,以不到 30 美金的成本通过强化学习,使 3B 的基础语言模型完成自我验证和搜 索;港科大的团队只用了 8K 个样本,就在 7B 模型上复刻出了 DeepSeek-R1-Zero 和 DeepSeek-R1 的训练,使 模型在复杂的数学推理上取得强劲的结果;甚至全球最大开源平台 HuggingFace 团队,也在 1 月 26 日官宣开 始复刻 DeepSeek-R1 的所有 pipeline,并将在复刻完成后,开源所有的训练数据和脚本。
全球大厂接连接入 R1,DeepSeek 冲击下 OpenAI战略方向或将转向。尽管美国质疑 DeepSeek 在安全 性、隐私方面的问题,但英伟达、英特尔、亚马逊、微软、AMD 等海外巨头仍纷纷在自家产品中接入了 DeepSeek;国内硅基流动和华为云同样联合首发并上线了基于华为云昇腾云服务的 DeepSeek R1/V3 推理服 务。受 DeepSeek 全球热度冲击,Sam Altman 承认在开源策略上“站在了历史错误的一边”,并表示正在讨论 开源部分模型。此外,OpenAI 于 2 月 1 日紧急更新了 o3-mini 系列,即使是免费用户也可以通过选择 “Search+Reason”来使用体验 o3-mini 的搜索功能。然而,o3-mini 模型当前的定价为每百万输入 tokens 0.55 美元(缓存命中)/ 1.1 美元(缓存未命中),每百万输出 tokens 4.4 美元,远高于 R1 模型。
参考安卓及 iOS 份额变化,开源生态有望为 AI产业注入活力。在智能手机操作系统领域,安卓的开源与 iOS 的封闭带来了截然不同的生态模式: 安卓:Android 公司成立于 2003 年,2005 年被 Google 收购,并在 2007 年正式推出了 Android 操作系统。 生态上,安卓系统开源开放,允许众多手机厂商基于其底层架构进行定制化开发,使其市场份额从 2008 年的 2.8%提升到 2011 年的 48%,但同时也带来了专利诉讼、软件盗版和系统安全等一系列问题;2011 年,Google 推出 Android 4,从此安卓设备逐步正规化、标准化,直至 2024 年 12 月,安卓操作系统市场份额已经达到 73.49%。 iOS:同样在安卓系统正式发布的 2007 年,苹果发布了搭载 iOS 系统的第一代 iPhone,开启了智能手机 的新时代。相较于安卓的开放,苹果 iOS 系统采用封闭式生态,严格把控软件审核环节,一定程度限制了系统 的灵活性,但为用户提供了一致且高质量的使用体验。从市场份额看,近年来 iOS 系统的市占率相对稳定, 2024 年 12 月市场份额为 26.04%,低于 2009 年 1 月 iOS 的市场份额 35.56%。 AI产业:类比手机操作系统领域,当前 AI 产业同样面临开源和闭源之争。参考安卓系统发展历程,开源 模式能够吸引全球范围的开发者参与 AI 技术创新,后来者能够基于已有成果快速进行应用开发与产品迭代, 从而推动 AI 应用的快速落地,推动 AI 产业加速发展。
我们认为,DeepSeek-R1 作为开源模型性能接近头部闭源模型 o1,一定程度上已经反映了 AI 平权。实际 上,过去 OpenAI 的领先更多基于先发优势,而当开源模型的性能实现对闭源模型的追赶,全球的团队的研发 能力能够使开源模型的性能始终位于前列。近期各研究团队对 R1 模型的积极复现更是侧面验证了开源模式的 优势。此外,DeepSeek-R1 使小模型具备推理能力成为可能,更低的成本将更有利于开发者探索 AI 的实际落 地,带来更有价值的产品。
3.2 第九问:DeepSeek 出圈对产业的影响有几何?
DeepSeek 以其低成本、高性能全面影响 AI产业链。AI 产业链大致可分为基础层(算力、数据、技术 等)、模型层(通用/行业大模型、开发平台)和应用层(通用/垂域应用、Agent 等)。尽管创始人梁文锋称 DeepSeek 技术突破只是“美国每天发生的大量创新里非常普通的一个”,但其低成本、高性能,以及为小模 型带来强大推理能力的蒸馏方式,仍对 AI 产业链产生了冲击:
算力:DeepSeek 的爆火使得“杰文斯悖论”这一经济学名词受到关注,它是指“燃料效率的提高往往会 增加燃料使用”。如果将该理论拓展到算力领域,模型对算力应用效率的提升反而会带来算力需求的增长。实 际上,“杰文斯悖论”反映了简单的经济学原理——当需求价格弹性系数大于 1,价格下降则会带来销售收入 增加。因此,DeepSeek 影响下算力需求是否增加的关键在于算力的价格弹性,而这又受到算力用途的影响 (一般来说,商品用途多,需求弹性就越大)。 算力作为新一轮科技革命的底层基础,将会应用于千行百业,DeepSeek-R1 使小模型能通过蒸馏具备较强 逻辑推理能力,更进一步加速了下游应用的产生,则算力的价格弹性更可能大于 1,符合“杰文斯悖论”,从 而持续保持旺盛的需求。此外,梁文锋在访谈中提到高端芯片禁运或将成为卡点,同样反应了算力芯片自主可 控的重要性。
模型:DeepSeek-R1 模型的突破实际上反映了中美在前沿大模型差距的缩小。以发布于 2024 年 3 月的 GPT-4 为例,2024 年 1 月发布的智谱 GLM-4 才在部分 benchmark 上达到了其 90%-100%的水平,模型差距在 10 个月以上;而 2025 年 1 月发布的 R1 已经接近 OpenAI 2024 年 9 月发布的 o1 模型,模型差距缩短到 4 个月 左右。而大模型本身及其对应的 Chat bot 产品,用户切换成本低,存在“赢者通吃”的现象,例如 kimi 在 2024 年 3 月实现上下文无损输入长度提升至 200 万字,爆火出圈带来流量的大幅上涨;2024 年 12 月字节火山 引擎热度攀升,以及 DeepSeek-V3 的发布同样带来了流量的快速提升。在此背景下,预计大厂将跟进 DeepSeek 模型层的研发,技术开源亦将促进大厂持续投入,形成正反馈。此外,DeepSeek 通过纯 RL 算法、 架构优化等方式实现了模型性能的提升,或将促进各厂商在相关领域进行更多的探索。
应用:DeepSeek-V3/R1 作为通用/推理方面的基础模型,性能升级及在各类 Benchmark 跑分中的提高, 本身就为应用落地带来了更大的可能性。然而,对于开发者而言,更关键的点在于模型能够和应用适配调优,提供稳定性的 API 服务,以及性价比更高的 tokens 成本。参考 2024 年 5 月 DeepSeek-V2 发布后带来的大模型 价格战,即使模型成本更高,字节、阿里等大厂亦按照烧钱补贴的逻辑大幅降价,本质上是因为开发者价格敏 感,大厂愿意亏钱抢占市场份额,培育开发者使用习惯。 考虑到 DeepSeek-R1 开发和调用成本本身较低,还通过蒸馏的方式带来了小模型推理能力的提升,则应 用开发者能够以更低的成本部署模型或调用 API,并保持相对优秀的性能。当应用开发门槛降低,预计会出现 更多产品探索方向,直至出现具有突破性的 “killer”应用。同时,DeepSeek-R1 的低价,同样有望带来推理 模型新一轮的价格战(o3-mini 的价格本身已经验证了这一观点),为开发者带来更多性价比之选。最后,当 DeepSeek 模型的能力达到全球第一梯队后,其作为国内厂商能为国内应用开发者提供更稳定的服务(调用 GPT API可能会受到各种限制),亦将促进各类应用产生。
数据:DeepSeek 系列模型的训练过程仍凸显了高质量数据的重要性。例如 V3 模型训练时使用了 14.8 万 亿涵盖多种领域和语言的 token;R1 通过精心筛选和处理的冷启动数据提升了模型性能和可读性;Janus-Pro 在训练时同样较前代模型增加约 9000 万用于多模态理解的样本和约 7200 万用于视觉生成的合成美学数据。 结合 RL 范式的可能性,预计高质量数据仍将在模型训练中具有重要意义。
来源:报告研究所