摘要:DeepSeek-V3在众多其他闭源模型中脱颖而出,表现优于Meta的旗舰产品——拥有4050亿个参数的Llama 3.1模型。与DeepSeek的前代产品V2相比,V3的速度提高了三倍。
上周四,12月26日那个晚上非常不平凡,一件大事注定要被AI界写进里程碑。
一夜之间,全球开源界最强模型不再是Llama了,而是中国开源界的新星DeepSeek最新研发的前言模型V3,甚至可以比肩世界顶尖的闭源模型。
根据DeeSeek披露的基准测试分数,简单来讲,八个字:开源最强,闭源比肩。
DeepSeek-V3在众多其他闭源模型中脱颖而出,表现优于Meta的旗舰产品——拥有4050亿个参数的Llama 3.1模型。与DeepSeek的前代产品V2相比,V3的速度提高了三倍。
更为瞩目的是,技术论文中写道:“综合评估表明,DeepSeek-V3已成为当前可用的最强开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。”
但更为让人吃惊的点就在于——2个月、2000张H800卡,就搞出了GPT-4o级别的模型。
DeepSeek这实力真的有点恐怖!
那么这家由知名私募巨头幻方量化旗下的人工智能公司,究竟是如何做到的?
本身的模型架构训练也不是什么秘密:V3模型还是走的MoE路线,总计拥有6710亿个参数,每个token可激活370亿个参数。这么大模型需要多少数据量来训练呢?答案是:14.8万亿个token!
注意:HuggingFace上的DeepSeek-V3模型总大小为685B,包括671B的主模型权重和14B的多标记预测(MTP)模块权重。
DeepSeek已在GitHub上发布了该模型,并发表了一篇详细的技术论文,概述了其能力。
论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
论文中披露的创新点很多,这里分享三个印象最为深刻的点:MLA技术+小专家MoE架构;负载均衡策略、多标记预测训练目标的前后训练的样板打法;P/D分离+双流推理低设备空闲策略。
一,模型架构方面,V3采用MLA技术(多头潜在注意力)+MoE架构。大模型架构需要遵循系统算法系统设计原则,DeepSeek采用的MLA技术,可以理解为类LoRA对kv进行降维压缩,升维操作转移到Q和O上,避免反复解压缩,这样可以降低kv cache/token开销。MLA其实在V2就已经采用了,只是没有得到大家的广泛关注,因为复杂度相对偏高。
而MoE这块,这块大家都比较熟知,主要是为了为了降低flops/param开销,不过V3所采用的策略也可圈可点。不同于Mixtral中大专家的设计(将稠密模型中的MLP结构复制8份),DeepSeek-V3采用大量“小专家”的设计,能够显著提升模型的稀疏程度(总参数量除以激活参数量)。
相比V2的236B总参数(21B激活参数),V3更加激进地引入256个专家,总参数量达到惊人的671B,而激活参数量仅仅增加到37B。
根据技术报告里的数据,得益于更加稀疏的MoE设计,以及系统上的一系列优化,训练V3每trillion数据的GPU小时数仅仅为180K(而V2对应的GPU小时数为172.8K),可谓是将V2技术报告标题中的Economical(性价比)贯彻到底。
此外,MoE架构方面,V3还开创了一种新的无辅助损失的负载平衡策略和多标记预测训练目标。V3中使用先前发布的auxiliary-loss-free策略来缓解专家之间的负载不均衡。一位业界人士称赞道:学术探索的技术能够如此迅速地上线到自家大模型,可见DeepSeek对于创新的重视程度。
另外,V3引入了multi-token prediction(MTP),不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样速模型解码。从论文汇报的效果来看,MTP会是一个不错的训练技巧。
二,训练效率优化方面,预训练方面的FP8混合精度训练模式,后训练 R1模型的长链思考能力蒸馏到了标准LL中。
据业内人士介绍,实际大模型训练中主流选择是BF16。因为FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定。现有FP8方案的训练困难主要来自两个方面,一个是粗粒度的per-tensorE4M3量化会因为个别异常值增加量化误差,另一个则是反向过程中使用的E5M2格式会带来较大的舍入误差。
为了解决以上问题,DeepSeek-V3在训练过程中统一使用E4M3格式,并通过细粒度的per-tile(1x128)和per-group(128x128)量化来降低误差。这种设计更加接近micro-scaling格式,然而,当前硬件架构并不支持这种格式的运算,这给FP8矩阵乘法的实现带来了挑战(需要通过partial sum的方式来实现)。
FP8的好处,有一点体现在节省显存上(尤其是激活值)。显存的优化有助于设计更好的并行策略,例如可以减少甚至消除张量并行的使用。此外,V3使用BF16来保存优化器,状态,以及对部分操作进行选择性重计算(例如RMSNorm, MLA Up-Proj, SwiGLU)。
可以说V3给业界做了一个很好的示范:FP8模式是可行和有效的!
通过算法、框架和硬件的共同设计,V3克服了跨节点MoE训练中的通信瓶颈,几乎实现了完全的计算通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。
以仅2.664M H800 GPU小时的经济成本,就完成了在14.8T标记上的预训练,并且效果也异常得好,造就了目前最强大的开源基础模型。预训练后的后续训练阶段仅需要0.1M GPU小时。
此外,其训练过程非常稳定。在整个训练过程中并没有遇到任何不可恢复的损失峰值或执行任何回滚。
后训练上,V3也有了新的样板打法:从类o1中的长链思考能力蒸馏道标准LLM中。通过V3的训练流程,可以优雅地将R1的验证和反思模式整合到DeepSeek-V3中,并显著提高了其推理性能。同时,V3的输出风格和长度也可以后台控制。
三,推理优化:推理层面,除了业内熟知的P/D分离策略最大化系统吞吐,降低解码时延之外,还填充all2all通信阶段的设备空闲时间,V3采用NanoFlow中的双流推理策略,将不同micro-batch中的计算和通信任务并发执行,从而提高设备资源利用率。
DeepSeek将V3的API定价将维持与DeepSeek V2相同,直至2025年2月8日。之后随着性能更强的V3版本推出,输入时费用为每百万个tokes0.27美元,输出时费用为每百万个tokens1.10美元。
这也是DeepSeek算法和工程上的创新的结果,V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,在处理多模态数据和长文本时表现突出。
这意味着它也成为了市面上最便宜的模型之一。
同时,DeepSeek在开源方面也做得很足,为了确保最佳性能和灵活性,还与开源社区和硬件供应商(英伟达、AMD、华为等)合作,提供了多种本地运行模型的方式。
尽管这可能不是一场公平的较量,但该模型与OpenAI的o1相比表现如何呢?
o1在GPQA Diamond(博士级科学问题)基准测试中获得了76%的分数,而DeepSeek则以59.1%的分数落后于o1。o1的完整版本在多个基准测试中击败了DeepSeek。然而,DeepSeek-V3在多个基准测试中确实优于备受追捧的Claude 3.5 Sonnet。
后来,大家还发现V3在对话聊天中存在“误报我是GPT4o”的内容,纯属业内经常会出现的合成数据和蒸馏训练的情况。
但尽管如此,足以说明DeepSeek在过去短短几个月里在开源AI生态系统中就取得了重大进展。而DeepSeek并非个例。另一方面,阿里巴巴的Qwen 2.5在性能上与许多领先模型不相上下。Qwen2.5-Coder系列在代码生成方面表现出色,在EvalPlus、LiveCodeBench和BigCodeBench等基准测试中,其功能与GPT-4o不相上下。
来源:51CTO一点号