摘要:外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
【导读】 外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
DeepSeek这波强攻, 彻底把OpenAI逼急了——深夜紧急上线o3-mini 。 整整半个月,中国AI承包了国内外各大头条,影响力只增不减。 关于DeepSeek模型训练数据、GPU用量、成员构成、RL训练算法,早已成为所有人的关注焦点。 SemiAnalysis一篇深度报道中,从多个方面进行了推测——训练成本、对闭源模型利润影响、团队等等。5万块Hopper GPU,投资超5亿美金
DeepSeek背后顶级投资者幻方量化(High-Flyer),很早就洞察到了AI在金融领域之外的巨大潜力,以及规模化部署的关键重要性。 基于这一认知,他们持续扩大 GPU 投资规模。 在使用数千个GPU集群进行模型实验后,幻方在2021年投资购入了10,000块A100,这一决策最终证明是极具前瞻性的。 随着业务发展,他们在2023年5月决定分拆成立「DeepSeek」,以更专注地推进AI技术发展。由于当时外部投资者对AI领域持谨慎态度,幻方选择自行提供资金支持。 目前,两家公司在人力资源和计算资源方面保持密切合作。150+顶尖人才,年薪934万
在人才战略方面,DeepSeek专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。 他们经常在北京大学和浙江大学等顶尖高校举办招聘活动,现有员工中很多都来自这些学校。 公司的职位设置非常灵活,不会过分限定岗位职责,招聘广告甚至强调可以自由使用数万个GPU资源。 他们提供极具竞争力的薪酬待遇,据报道为优秀候选人提供的年薪可达130万美元以上,远超其他科技巨头和AI实验室的水平。 目前公司约有150名员工,并保持快速扩张态势。 历史经验表明,资金充足且目标明确的创业公司,往往能够突破现有技术边界。 与谷歌等大公司的繁琐决策流程相比,DeepSeek 凭借自主融资的优势,能够更快速地将创新理念付诸实践。 有趣的是,DeepSeek在运营模式上却与谷歌相似,主要依靠自建数据中心而非外部服务提供商。 这种模式为技术创新提供了更大的实验空间,使他们能够在整个技术栈上进行深度创新。 在SemiAnalysis看来,DeepSeek已经成为当今最优秀的「开源权重」(open weights)实验室,其成就超越了Meta Llama、Mistral等竞争对手。训练成本不止600万美金
DeepSeek的定价策略和运营效率在本周引发了广泛关注,特别是有关DeepSeek V3训练成本「600万美元」的报道。 但事实上,预训练成本仅是整体投入中的一小部分。训练成本解析
高级分析师认为,预训练阶段的支出远不能代表模型的实际总投入。 据他们评估,DeepSeek在硬件方面的累计投资已远超5亿美元。在开发新架构的过程中,需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验(ablation studies)。 比如,作为DeepSeek重要技术突破的多头潜注意力机制(Multi-Head Latent Attention),其开发周期就长达数月,消耗了大量的人力资源和计算资源。 论文中,提到的600万美元仅指预训练阶段的GPU直接成本,这只是模型总成本的一个组成部分。 其中并未包含研发投入、硬件设施的总拥有成本(TCO)等关键要素。 举例来说,Claude 3.5 Sonnet训练成本就达到了数千万美元。 如果这就是Anthropic所需的全部投入,他们就不会从谷歌筹集数十亿美元,更不会从亚马逊获得数百亿美元的投资。 这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。算法优化,让性能差距缩小
V3无疑是一个令人瞩目的模型,但需要在合适的参照系下评估其成就。 许多分析将V3与GPT-4o进行对比,强调V3超越了后者的性能。这个结论虽然正确,但需要注意GPT-4o是在2024年5月发布的。 在AI快速迭代的背景下,半年前的技术水平已显得相对陈旧。 此外,随着时间推移,用更少的计算资源实现相当或更强的性能,也符合行业发展规律。推理成本的持续下降正是AI进步的重要标志。R1与o1打平手,「推理」新范式
另一个引人关注的问题是,R1能够达到与o1相当的性能水平,而o1仅在去年9月才发布。 那么,DeepSeek是如何能在如此短的时间内,实现这一跨越的? 其关键在于,「推理」这一新范式的出现。 与传统范式相比,推理范式具有更快的迭代速度,且能以较少的计算资源获得显著收益。 正如SemiAnalysis在scaling law报告中指出的,传统范式主要依赖预训练,这种方式不仅成本越来越高,而且越来越难以实现稳定的性能提升。 新的推理范式,主要通过合成数据生成和在现有模型基础上进行后训练强化学习来提升推理能力,这使得以更低成本获得快速进展成为可能。 随着业界逐步掌握这一新范式的扩展技巧,高级分析师预计不同模型之间在能力匹配上的时间差距可能会进一步拉大。 虽然R1在推理性能上确实达到了相当水平,但它并非在所有评估指标上都占据优势,在许多场景下其表现甚至不如 o1。谷歌推理模型,实力相当
在R1引发广泛关注的同时,一个重要事实往往被忽视:谷歌在一个月前就推出了一款更具性价比的推理模型——Gemini Flash 2.0 Thinking。 这个模型不仅可以直接使用,而且通过 API 提供了更长的上下文长度。 在已公布的基准测试中,Flash 2.0 Thinking表现优于 R1,尽管基准测试并不能完全反映模型的真实能力。谷歌仅公布了3项基准测试结果,这显然不足以提供完整的对比。 即便如此,分析师认为谷歌的模型具有很强的稳定性,在多个方面都能与R1分庭抗礼,只是没有获得应有的关注度。 这可能部分源于谷歌欠佳的市场策略和用户体验,也与出乎意料的竞争者R1的到来有关。中国MLA创新,让全世界抄作业
接下来,让我深入扒一扒DeepSeek所取得的领先实验室尚未实现的技术突破。 SemiAnalysis高级分析师预计,DeepSeek发布的任何技术改进,都会被西方实验室迅速复制。 那么,这些突破性进展是什么? 实际上,主要的架构创新与V3模型密切相关,该模型也是R1的基础模型。训练(前期和后期)
不是「下一个token预测」,而是「多token预测」 DeepSeek V3以前所未见的规模实现了多Token预测(MTP)技术,这些新增的注意力模块可以预测接下来的多个 Token,而不是传统的单个Token。 这显著提高了训练阶段的模型性能,且这些模块可以在推理阶段移除。 这是一个典型的算法创新案例,实现了在更低计算资源消耗下的性能提升。 其他方面,虽然DeepSeek在训练中采用了FP8精度,但像全球一些顶尖的实验室已经采用这项技术相当长时间了。 DeepSeek V3采用了我们常见的「混合专家模型」(MoE)架构,个由多个专门处理不同任务的小型专家模型组成的大模型,展现出强大的涌现能力。 MoE模型面临的主要挑战是,如何确定将哪个Token分配给哪个子模型(即「专家」)。 DeepSeek创新性地采用了一个「门控网络」(gating network),能够高效且平衡地将Token路由到相应的专家,同时保持模型性能不受影响。 这意味着路由过程非常高效,在训练过程中每个Token只需要调整小量参数(相较于模型整体规模)。 这既提高了训练效率,又降低了推理成本。 尽管有人担心MoE带来的效率提升,可能降低投资意愿,但Dario指出,更强大的AI模型带来的经济效益非常可观,任何节省的成本都会立即被投入到开发更大规模的模型中。 因此,MoE效率提升不会减少总体投资,反而会加速AI规模化进程。 当前,包括OpenAI、谷歌、Anthropic等一些公司正专注于扩大模型的计算规模,并提高算法效率。 V3打好了基础,RL立大功 对于R1而言,它极大地受益于其强大的基础模型——V3,这在很大程度上要归功于强化学习(RL)。 RL主要关注两个方面:格式化(确保输出连贯性)以及有用性与安全性(确保模型实用且无害)。 模型的推理能力,是在对合成数据集进行微调过程中自然涌现的,这与o1的情况类似。 值得注意的是,R1论文中并没有提及具体的计算量,因为披露使用的计算资源,会暴露DeepSeek实际拥有的GPU数量远超过其对外宣称的规模。 这种规模的强化学习需要庞大的计算资源,特别是在生成合成数据时。 谈到蒸馏,R1论文最引人注目的发现可能是,通过具有推理能力的模型输出来微调较小的非推理模型,使其获得推理能力。 数据集包含了约80万个样本,现在研究人员可以利用R1的思维链(CoT)输出创建自己的数据集,并借此开发具有推理能力的模型。 未来,我们可能会看到更多小模型展现出推理能力,从而提升小模型的整体性能。多头潜注意力(MLA)
如开头所述,MLA是一项重要的技术创新,它显著降低了DeepSeek模型推理成本。 与标准注意力机制相比,MLA将每次查询所需的KV缓存减少了约93.3%(KV缓存是Transforme模型中的一种内存机制,用于存储表示对话上下文的数据,从而减少不必要的计算开销)。 KV缓存会随着对话上下文的增长而不断扩大,这会造成显著的内存限制。 通过大幅减少每次查询所需的KV缓存量,可以相应减少每次查询所需的硬件资源,从而降低运营成本。 MLA这项创新,特别引起了许多美国顶级实验室的关注。实际上,MLA首次在2024年5月发布的DeepSeek V2中就已推出。 此外,由于H20芯片比H100具有更高的内存带宽和容量,DeepSeek在推理工作负载方面获得了更多效率提升。R1并非真正动摇o1技术优势
在利润率方面,SemiAnalysis发现了一个关键现象:R1并非真正动摇了o1的技术优势,而是以显著更低的成本实现了相似的性能水平。 这种现象本质上符合市场逻辑,接下来高级分析师将提出一个框架,来分析未来价格机制的运作方式。 技术能力的提升往往能带来更高的利润率。 这种情况与半导体制造业的发展模式极其相似,只是节奏更快。就像台积电每当率先突破新制程时,都能获得显著的定价优势,因为他们提供了此前市场上不存在的产品。 其他落后的竞争对手(如三星、英特尔)则会采取较低的定价策略,以在性价比上达到平衡。 对芯片制造商(在这个类比中,即AI实验室)来说,一个有利条件是他们可以灵活调整产能分配。 当新型号能提供更优的性价比时,他们可以将产能转移到新型号的生产上。虽然旧型号仍会继续支持,但会相应减少其供应规模。 这种策略模式与当前AI实验室的实际运营行为高度吻合,也反映了半导体制造业的基本规律。率先破局者,手握定价权
这很可能就是AI能力发展的基本规律。 率先突破到新的能力层次,将带来可观的价格溢价,而那些能够快速追赶到相同能力水平的竞争者,只能获得适度利润。 如果能为特定应用场景保留较低能力水平的产品,这些产品仍将继续存在。 但能够追赶到领先能力水平的公司,将随着每一代技术更迭而逐渐减少。 所有人见证了,R1取得了领先水平,却采用了0利润率的定价策略。 这种显著的价格差异不禁让人质疑:为什么OpenAI的价格如此之高?这是因为他们采用了基于SOTA的前沿定价策略,享受着技术领先带来的溢价优势。免费,还能维持多久?
事实上,市场一直在寻找一个突破点,而这就成为了他们的选择。 如果DeepSeek愿意接受零利润率甚至负利润率运营,他们确实可以维持如此低的价格水平。 但显然,提供前沿token服务的价格弹性阈值要高得多。考虑到DeepSeek正在筹备新一轮融资,这种策略对他们来说是有其战略意义的。 DeepSeek刚刚在推理能力这个关键突破点上,打破了OpenAI的高利润率格局。 但这种领先优势能持续多久? SemiAnalysis对此持怀疑态度——这更像是一个开源实验室展示了它能够达到闭源实验室的能力水平。来源:科技列车
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!