1. 引言摘要:我们介绍了DeepSeek-V3,这是一个拥有671B总参数的强大专家混合(MoE)语言模型,每个标记激活37B参数。 为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些在DeepSeek
我们介绍了DeepSeek-V3,这是一个拥有671B总参数的强大专家混合(MoE)语言模型,每个标记激活37B参数。 为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些在DeepSeek-V2中得到了充分的验证。 此外,DeepSeek-V3率先采用了无辅助损失的负载平衡策略,并设置了多标记预测训练目标,以实现更强大的性能。 我们在14.8万亿多样化和高质量的标记上预训练DeepSeek-V3,然后进行监督微调和强化学习阶段,以充分利用其能力。 综合评估表明,DeepSeek-V3超越了其他开源模型,并实现了与领先的闭源模型相当的性能。 尽管性能出色,DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时。 此外,其训练过程非常稳定。 在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚。
2. 模型摘要
架构:创新的负载平衡策略和训练目标
在DeepSeek-V2的高效架构之上,我们率先采用了无辅助损失的负载平衡策略,这最小化了鼓励负载平衡时出现的绩效下降。我们研究了多标记预测(MTP)目标,并证明它对模型性能有益。 它也可以用于推理加速的推测性解码。预训练:追求终极训练效率
我们设计了一个FP8混合精度训练框架,并首次验证了FP8训练在极大规模模型上的可行性和有效性。通过算法、框架和硬件的共同设计,我们克服了跨节点MoE训练中的通信瓶颈,几乎实现了全计算通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。 - 以仅2.664M H800 GPU小时的经济成本,我们完成了DeepSeek-V3在14.8T标记上的预训练,产生了目前最强大的开源基础模型。预训练后的后续训练阶段仅需要0.1M GPU小时。
后训练:从DeepSeek-R1中的知识蒸馏
我们引入了一种创新的方法,将推理能力从长链思考(CoT)模型中蒸馏出来,特别是从DeepSeek R1系列模型中的一个,到标准的LLMs中,特别是DeepSeek-V3。我们的流程优雅地将R1的验证和反思模式整合到DeepSeek-V3中,并显著提高了其推理性能。同时,我们也控制了DeepSeek-V3的输出风格和长度。3. 模型下载
模型#总参数#激活参数上下文长度DeepSeek-V3-Base671B37B128KHuggingFaceDeepSeek-V3671B37B128KHuggingFace注意:HuggingFace上的DeepSeek-V3模型的总大小为685B,其中包括671B的主模型权重和14B的多标记预测(MTP)模块权重。
为确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种在本地运行模型的方式。有关逐步指导,请查看第6节:如何在本地运行。
对于希望深入了解的开发者,我们建议探索README_WEIGHTS.md以了解主模型权重和多标记预测(MTP)模块的详细信息。请注意,MTP支持目前正在社区中积极开发中,我们欢迎您的贡献和反馈。
4. 评估结果
基础模型
标准基准测试
基准测试(指标)# ShotsDeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3架构-MoEDenseDenseMoE#激活参数-21B72B405B37B#总参数-236B72B405B671B英语Pile-test (BPB)-0.6060.6380.5420.548BBH (EM)3-shot78.879.882.987.5MMLU (Acc.)5-shot78.485.084.487.1MMLU-Redux (Acc.)5-shot75.683.281.386.2MMLU-Pro (Acc.)5-shot51.458.352.864.4DROP (F1)3-shot80.480.686.089.0ARC-Easy (Acc.)25-shot97.698.498.498.9ARC-Challenge (Acc.)25-shot92.294.595.395.3HellaSwag (Acc.)10-shot87.184.889.288.9PIQA (Acc.)0-shot83.982.685.984.7WinoGrande (Acc.)5-shot86.382.385.284.9RACE-Middle (Acc.)5-shot73.168.174.267.1RACE-High (Acc.)5-shot52.650.356.851.3TriviaQA (EM)5-shot80.071.982.782.9NaturalQuestions (EM)5-shot38.633.241.540.0AGIEval (Acc.)0-shot57.575.860.679.6代码HumanEval (Pass@1)0-shot43.353.054.965.2MBPP (Pass@1)3-shot65.072.668.475.4LiveCodeBench-Base (Pass@1)3-shot11.612.915.519.4CRUXEval-I (Acc.)2-shot52.559.158.567.3CRUXEval-O (Acc.)2-shot49.859.959.969.8数学GSM8K (EM)8-shot81.688.383.589.3MATH (EM)4-shot43.454.449.061.6MGSM (EM)8-shot63.676.269.979.8CMath (EM)3-shot78.784.577.390.7中文CLUEWSC (EM)5-shot82.082.583.082.7C-Eval (Acc.)5-shot81.489.272.590.1CMMLU (Acc.)5-shot84.089.573.788.8CMRC (EM)1-shot77.475.876.076.3C3 (Acc.)0-shot77.476.779.778.6CCPM (Acc.)0-shot93.088.578.692.0多语言MMMLU-non-English (Acc.)5-shot64.074.873.879.4注:最佳结果以粗体显示。得分差距不超过0.3的被认为是同一水平。DeepSeek-V3在大多数基准测试中表现最佳,特别是在数学和编码任务上。 有关更多评估细节,请查看我们的论文。
上下文窗口
在Needle In A Haystack(NIAH)测试中的评估结果。DeepSeek-V3在所有上下文窗口长度上表现良好,最高可达128K。聊天模型
标准基准测试(大于67B的模型)
基准测试 (指标)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3架构MoEMoEDenseDense--MoE#激活参数21B21B72B405B--37B#总参数236B236B72B405B--671B英语MMLU (EM)78.280.685.388.688.387.288.5MMLU-Redux (EM)77.980.385.686.288.988.089.1MMLU-Pro (EM)58.566.271.673.378.072.675.9DROP (3-shot F1)83.087.876.788.788.383.791.6IF-Eval (Prompt Strict)57.780.684.186.086.584.386.1GPQA-Diamond (Pass@1)35.341.349.051.165.049.959.1SimpleQA (Correct)9.010.29.117.128.438.224.9FRAMES (Acc.)66.965.469.870.072.580.573.3LongBench v2 (Acc.)31.635.439.436.141.048.148.7代码HumanEval-Mul (Pass@1)69.377.477.377.281.780.582.6LiveCodeBench (Pass@1-COT)18.829.231.128.436.333.440.5LiveCodeBench (Pass@1)20.328.428.730.132.834.237.6Codeforces (Percentile)17.535.624.825.320.323.651.6SWE Verified (Resolved)-22.623.824.550.838.842.0Aider-Edit (Acc.)60.371.665.463.984.272.979.7Aider-Polyglot (Acc.)-18.27.65.845.316.049.6数学AIME 2024 (Pass@1)4.616.723.323.316.09.339.2MATH-500 (EM)56.374.780.073.878.374.690.2CNMO 2024 (Pass@1)2.810.815.96.813.110.843.2中文CLUEWSC (EM)89.990.491.484.785.487.990.9C-Eval (EM)78.679.586.161.576.776.086.5C-SimpleQA (Correct)48.554.148.450.451.359.364.8注:所有模型都在限制输出长度为8K的配置下进行评估。包含少于1000个样本的基准测试多次使用不同的温度设置进行测试,以得出稳健的最终结果。DeepSeek-V3作为表现最佳的开源模型,也展现出与前沿闭源模型相抗衡的性能。
开放式生成评估
模型Arena-HardAlpacaEval 2.0DeepSeek-V2.5-090576.250.5Qwen2.5-72B-Instruct81.249.1LLaMA-3.1 405B69.340.5GPT-4o-051380.451.1Claude-Sonnet-3.5-102285.252.0DeepSeek-V385.570.0注:英语开放式对话评估。对于AlpacaEval 2.0,我们使用长度控制的胜率作为指标。
5. 聊天网站 & API平台
6. 如何在本地运行
可以使用以下硬件和开源社区软件在本地部署DeepSeek-V3:
DeepSeek-Infer Demo:我们为FP8和BF16推理提供了一个简单轻量级的演示。SGLang:在BF16和FP8推理模式下完全支持DeepSeek-V3模型。LMDeploy:为本地和云端部署提供高效的FP8和BF16推理。TensorRT-LLM:目前支持BF16推理和INT4/8量化,FP8支持即将推出。vLLM:支持在NVIDIA和AMD GPU上以FP8和BF16模式运行DeepSeek-V3模型,并提供张量并行和流水线并行。AMD GPU:通过SGLang在BF16和FP8模式下在AMD GPU上运行DeepSeek-V3模型。华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。由于我们的框架中原生采用了FP8训练,我们只提供FP8权重。如果您需要BF16权重进行实验,可以使用提供的转换脚本来执行转换。
以下是将FP8权重转换为BF16的示例:
cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights注意:Huggingface的Transformers尚未直接支持。
6.1 使用DeepSeek-Infer Demo进行推理(示例)
模型权重和演示代码准备
首先,克隆我们的DeepSeek-V3 GitHub仓库:
导航到文件夹并安装requirements.txt中列出的依赖项。cd DeepSeek-V3/inferencepip install -r requirements.txt从HuggingFace下载模型权重,并将它们放入/path/to/DeepSeek-V3文件夹中。模型权重转换
将HuggingFace模型权重转换为特定格式:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16运行
然后你可以与DeepSeek-V3聊天:
torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200或对给定文件进行批量推理:
torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE6.2 使用SGLang进行推理(推荐)
SGLang目前支持MLA优化,FP8 (W8A8),FP8 KV缓存和Torch Compile,提供开源框架中的最先进的延迟和吞吐量性能。
特别是,SGLang v0.4.1完全支持在NVIDIA和AMD GPU上运行DeepSeek-V3,使其成为一个高度通用和强大的解决方案。
以下是SGLang团队提供的启动指令:
6.3 使用LMDeploy进行推理(推荐)
LMDeploy,一个灵活且高性能的推理和服务平台,专为大型语言模型量身定制,现在支持DeepSeek-V3。它提供了离线流水线处理和在线部署能力,与基于PyTorch的工作流程无缝集成。
有关使用LMDeploy运行DeepSeek-V3的详细步骤指南,请参阅这里:
6.4 使用TRT-LLM进行推理(推荐)
TensorRT-LLM现在支持DeepSeek-V3模型,提供BF16和INT4/INT8权重仅选项。FP8支持目前正在进行中,并将很快发布。您可以通过以下链接访问专门为DeepSeek-V3支持的TRTLLM的定制分支,直接体验新功能:。
6.5 使用vLLM进行推理(推荐)
vLLM v0.6.6支持在NVIDIA和AMD GPU上以FP8和BF16模式运行DeepSeek-V3推理。除了标准技术外,vLLM还提供_流水线并行_,允许您在通过网络连接的多台机器上运行此模型。有关详细指南,请参阅vLLM指南。请随时遵循增强计划。
6.6 推荐使用AMD GPU进行推理功能
与AMD团队合作,我们使用SGLang在AMD GPU上实现了对AMD GPU的第一天支持,完全兼容FP8和BF16精度。有关详细指南,请参阅SGLang指南。
6.7 推荐使用华为Ascend NPUs进行推理功能
华为Ascend社区的MindIE框架已成功适配DeepSeek-V3的BF16版本。有关Ascend NPUs的详细指南,请参阅这里。
7. 许可证
此代码仓库根据MIT许可证授权。DeepSeek-V3基础/聊天模型的使用受模型许可证的约束。DeepSeek-V3系列(包括基础和聊天)支持商业用途。
8. 引用
@misc{deepseekai2024deepseekv3technicalreport,title={DeepSeek-V3 Technical Report},author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang.2 | 50.5 || Qwen2.5-72B-Instruct | 81.2 | 49.1 || LLaMA-3.1 405B | 69.3 | 40.5 || GPT-4o-0513 | 80.4 | 51.1 || Claude-Sonnet-3.5-1022 | 85.2 | 52.0 || DeepSeek-V3 | **85.5** | **70.0** |5. 聊天网站 & API平台
你可以在DeepSeek的官方网站上与DeepSeek-V3聊天:
我们还提供与OpenAI兼容的API在DeepSeek平台:
6. 如何在本地运行
DeepSeek-Infer Demo:我们为FP8和BF16推理提供了一个简单轻量级的演示。SGLang:在BF16和FP8推理模式下完全支持DeepSeek-V3模型。LMDeploy:为本地和云端部署提供高效的FP8和BF16推理。TensorRT-LLM:目前支持BF16推理和INT4/8量化,FP8支持即将推出。vLLM:支持在NVIDIA和AMD GPU上以FP8和BF16模式运行DeepSeek-V3模型,并提供张量并行和流水线并行。AMD GPU:通过SGLang在BF16和FP8模式下在AMD GPU上运行DeepSeek-V3模型。华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights导航到文件夹并安装中列出的依赖项。文件夹中。模型权重转换
运行
或对给定文件进行批量推理:
7. 许可证
8. 引用
@misc{deepseekai2024deepseekv3technicalreport,title={DeepSeek-V3 Technical Report},author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan},year={2024},eprint={2412.19437},archivePrefix={arXiv},primaryClass={cs.CL},url={https://arxiv.org/abs/2412.19437},}9. 联系
如果您有任何问题,请提出问题或通过service@deepseek.com与我们联系。
来源:有趣的科技君