国内大厂ai技术专家解读deepseek

B站影视 2025-02-01 23:10 1

摘要:会议要点1、DeepSeek模型· DeepSeek R1:· 论文技术报告写得好,发布时包含R1和R2两个模型,两者使用技术不同。· R1未用SFT(微调),用post training(后续训练)的强化学习能力,效果不太好;R2用了SFT,效果更好。· 在

会议要点
1、DeepSeek模型
· DeepSeek R1:
· 论文技术报告写得好,发布时包含R1和R2两个模型,两者使用技术不同。
· R1未用SFT(微调),用post training(后续训练)的强化学习能力,效果不太好;R2用了SFT,效果更好。
· 在一些逻辑推理题和代码生成的评测中,DeepSeek R1与OpenAI的GPT相比,分数差距较大,原因是模型处理能力不同,R1注重逻辑推理。
· DeepSeek R1的训练采用基于强化学习的post trAIning模型,主要用到GPO算法,该算法是在设计DeepSeek Math模型时的新算法,但真正的核心可能是强化学习训出的自博弈或自成长模型的效果。
· 强化学习中奖励模型的设计很重要,其决定了模型的学习方向,这里面讲了如何设计奖励来引导模型。
· 随着训练时间和迭代时间的增加,DeepSeek R1的精度会提高,能够实现自学习,但存在中英文混淆回答和推理时停不下来等问题。
· DeepSeek V3:
· 被认为是降低算力的重要模型,V3模型发布后,英伟达股价下跌。
· V3模型被认为是最好的大模型,后发布的2.5max模型比V3略好,但差距不大。
· V3的训练分为三阶段:高质量训练,数据越多越好;逐步扩展序列长度;进行SFT和知识蒸馏的后训练。
· V3在工程上有很大改变,算法上采用无辅助损失的均衡负载策略(MOE架构),使专家之间的路由更稳定,减少Loss抖动和训练回滚,模型参数量变大,激活也增多。
· 采用多方位联合提升训练,使用英伟达未开源的分布式训练框架,业界大多用英伟达提供的Megatron分布式框架进行魔改。
· 首次用FP8混合精度进行训练,证明了FP8能够work,提升了训练效率,业界首创。
· 推理方面,以前大模型推理在单机或经过量化后在一个节点进行,现在V3用白卡进行部署,采用GPU分离,32卡全量推理,320卡做增量推理,以实现极致的吞吐量,虽推理成本高,但能容纳更多用户访问,降低价格。
· V3训练先做预训练,再扩展长度,最后进行后训练,后训练方式包括监督微调、强化学习、蒸馏等,通过多步训练使RE效果更好,还进行了集群训练的并行策略配置和工程优化,提高了模型训练速度。
· 推理成本方面,V3采用算法与工程结合的方式,根据模型的专家数量确定所需卡的数量,并非越多越好,否则会增加并行成本,导致推理变慢,存在一个瓶颈,超过该瓶颈后增加卡数无意义。

2、模型蒸馏
· DeepSeek模型的蒸馏:
· 用reasoning的模型进行蒸馏,即DeepSeek RE蒸馏,能够明显提升模型效果,小模型在接受新知识和新数据方面可能得到提升。
· 以前的蒸馏技术未用到reasoning模型,而DeepSeek RE证明了这一新技术路线,OpenAI或其他机构可能会借鉴这一方案,使小模型的能力得到提升。

3、强化学习在大语言模型中的应用
· 强化学习应用于大语言模型的问题:
· 业界曾尝试用强化学习加大模型的方式,受AlphaGo启发,使用蒙特卡罗搜索树,但难以得到收敛结果,业界在这一错误路线上进行了大量探索。
· O1的成功表明强化学习加到大语言模型的训练中是可行的,关键在于掌握训练的能力和技巧,包括调参等,强化学习的训练难度大,容易不收敛或发散。
· 强化学习应用于大语言模型的优势:
· 强化学习应用于大语言模型最重要的是让模型具备自我推理的能力,而SFT做不到长文本的自我演绎和自问自答。
· 强化学习针对AI for science或有明确垂直场景的客户群体,如OpenAI的O系列在逻辑推理方面的应用,而对于创作性或普通问答的客户群体,可能不是RL的路线。


4、模型结构与技术路线
· 未来技术路线的探讨:
· DeepSeek V3采用MOE(Mixture of Experts)技术路线,而LLaMA坚定走稠密路线,业界大多参考LLaMA的稠密路线,只有幻方走稀疏路线。
· 未来哪种技术路线是主流尚不明确,可能两种路线长期并存,取决于开源模型的效果和业界的选择,数据、算力和研发层面的工程能力是影响模型效果的重要因素。

5、模型的泛化能力
· 目前对实现模型泛化的技术路线不清楚,存在很多偶然性。
· GPT系列在post-training scaling中不断发展,但retraining的scaling开始放缓,post-training消耗大量算力,其与training消耗资源的量化比较较难。
· COT(思维链)的研究存在很多不确定性,包括其数据准备、长短控制、思考层数等,业界正在对COT的相关问题进行研究。

6、模型的成本与应用
· 模型成本与训练方式:
· DeepSeek V3的训练成本仅计算了正儿八经训练模型的部分,其试错、数据准备等沉没成本未算,且后训练部分的算力使用情况不确定,但总体比预训练少。
· 国内可能会参考DeepSeek的方案来降低训练模型的成本,但国外技术自主路线较强,可能不太会完全照搬。
· DeepSeek v3通过工程和算法的双向优化来摊薄成本,若业界往此方向发展,可能会降低成本,但具体情况需看工程优化情况。
· 模型的推理成本与应用场景:
· DeepSeek的推理成本下降,是通过采用Mixture of Experts架构,结合算法和工程优化,增大吞吐,以降低token数和实验时间,从而降低价格,但推理成本是否绝对下降需看并发量和吞吐量。
· 对于MOE架构,其是否成为推理模型的主流架构取决于推理场景,在云端有大量用户访问请求的前提下,MOE架构能提高性价比,但在追求极致时延的场景,如板载卡或推理卡上,稠密模型更适合。
· 目前推理端有从使用A100、A40等转向使用H800、H100等做推理的趋势,短时间内推理端的算力需求可能会有所下降。

7、强化学习的技术细节
· RL的PPO逻辑和优化点:
· PPO算法复杂,涉及多个模型的逻辑调度。
· actor生成数据和分布,critics通过reference model约束并更新critics model,world model评判actor model的输出,整体有四个模型,现在通过将两个模型变为一个函数,减少了一个完全相同参数的模型,使训练更易且稳定。
· 奖励模型的实现难度与挑战:
· 实现格式奖励的难度不大,但确定每个奖励对模型的作用和影响,以及针对不同垂直场景和通用场景的奖励配比,需要大量调参技巧,尝试难度较大。
· V3模型算力节约的环节:
· dual pipeline的设计实现了双流并行,使计算和通讯几乎全面掩盖,是一个重要创新点。
· FP8的成功实践是首次混合精度的新尝试,对降低算力有重要意义。
· 并行策略中TP等于1,EP等于6,是以前未尝试过的,极大降低了模型的算力资源消耗。

QA
Q:DeepSeek中的aha moment是必需的吗?
A:不一定是必需的,像GPT-3.5模型就没有aha moment。有aha moment更多证明模型在思考,如提出数学问题时模型会做逻辑推理和反思。


Q:DeepSeek模型在训练和应用过程中有哪些问题?
A:存在两个问题,一是中英文混淆回答;二是推理时停不下来,自问自答,导致推理成本极高,且可能最后答案跑偏。


Q:如何解决DeepSeek模型的问题?
A:通过一个高质量的数据集CodeStar做冷启动和微调,类似OpenAI刚发布GPT时用COT做问答或牵引,这里用了小规模的COT数据集做牵引和冷启动训练,即SFT的过程。


Q:GPT模型的数据组成是怎样的?
A:有两部分数据,一部分是带有COT的数据,一部分是没有COT的数据,通过这种方式组成以证明其泛化性比较好。


Q:关于RE模型的蒸馏情况是怎样的?
A:业界提出蒸馏技术很久了,RE模型蒸馏到两个(千万、拉马),蒸馏之后效果很好,文中没有写蒸馏的具体细节,只说了一些baseline测试的数据集情况。


Q:RLM为什么没有用过程奖励,以及没有用蒙特卡罗搜索树等搜索算法?
A:如果奖励过程学习,可能导致reward hacking这种思维布局。使用蒙特卡罗搜索树或其他搜索算法会导致搜索空间急剧膨胀。


Q:DeepSeek的训练流程是怎样的?
A:DeepSeek v3经过一个GPO,单个模型就能学习出一个RECO模型,初步具备OpenAI的RE模型的能力,但存在推理过程可读性差、中英文及多语言混淆问题。之后做SFT,拿到一堆COT数据冷启动并预微调给到V3,V3经过GPO过程变成RE。RE通过regression sampling得到COT数据,重新微调后给到V3,再强化给到RE,这种轮回方式即多步训练(multistage),使得RE效果变好。RE训练完后,蒸馏出千万、拉马3.3两个模型。


Q:GPO算法与PPO算法有什么关系,GPO算法有什么特点?
A:Kimi直接用PPO算法能实现类似效果,证明GPO不是必须的。在强化学习里,PPO算法中有“action(表演者)”,policy model也叫actor,是一个大语言模型。输入问题或point给大模型,其输出答案后给到reference model、world model、value model(也叫critic model )。传统方式中表演者和评判者互博弈存在问题,因为policy model和world model都是大模型,在一个集群里训练成本和效果复杂。而RE里直接干掉critic model,让world model输出多个答案求均值,再与policy model做KL散度计算,减少了critic model,使模型训练更稳定。两种方式都能实现,关键在于算法控制。


Q:为什么Kimi和GPO能够实现相关成果?
A:很重要的是掌握强化学习的调试方法,强化学习在环境中学习,环境不受控。Kimi在工程上做得很好,GPO在算法上做得比较好。


Q:Deepseek v3模型与之前版本相比,在训练方式上有哪些特点?
A:Deepseek v3主要分三阶段训练。首先是高质量训练,数据越多越好;第二步是逐步扩展序列长度,从4K到32K到128K,随着数据量减少,数据长度变长;最后进行SFT以及知识蒸馏等post training相关内容。训练时先做训练,再扩展长度,然后做后训练,后训练采用监督微调、强化学习、蒸馏等多种方式把模型效果做好。


Q:Deepseek v3在算法上有哪些改变?
A:算法上有两个重要改变。一是采用了无辅助损失的均衡负载策略,即MOE架构,为解决专家多导致路由不确定、专家计算量不均衡的问题,让专家计算量尽可能相近;二是引入新算法创新点,在使用均衡负载策略后,整体效果变好,Loss无抖动,无需训练回滚,实现专家变多、模型参数量增大,v3模型参数量从v2的两千多亿提升到6710亿。


Q:Deepseek v3在训练框架和精度方面有什么特点?
A:Deepseek v3没有公布其训练框架。在训练精度方面,它首次使用FP8混合精度训练,之前大模型基本用BF16训练,使用FP8训练可使训练时间大幅减少。


Q:Deepseek v3的推理方式与以往有什么不同?
A:以往大模型推理多在单机八卡或量化后在一个节点进行,追求低时延。而Deepseek v3用白卡部署推理,采用GPU分离,32卡全量推理,320卡做增量推理,虽推理成本高,但通过大集群做到极致的吞吐量,能在同一时间段容纳更多用户量、访问用户量和请求量,与以前用一个节点做推理有很大区别,且单机推理走向白卡推理,将test time的restoring或scaling撑大。


Q:Deepseek V3与Llama 3.1在训练资源和效果上有哪些差异?
A:Deepseek V3用2K的H800训练了53天,Llama 1 405B(模型参数量比Deepseek V3少一个等级,一个是671B一个405B)用16K的H100训练了54天,H100网络带宽是900多GBPS,H800受限后网络带宽是400GBPS,算上网络带宽,Deepseek V3训练成本可能是Llama 3.1的十分之一。推理时,Deepseek V3整体吞吐比Llama V1好,相比Llama 3.1节省了很多资源。


Q:Deepseek V3与V2在模型方面有哪些不同?
A:网络模型结构与V2相同,但总参数量多了三倍,激活也多了很多,用P8训练,词表变多,数据集更大,其他基本是横向扩展。


Q:Deepseek V3在工程算法上有哪些优化提升了训练速度?

A:采用了两个重要工程算法,通过两边倒推卡的训练方式,减少集群训练中的空泡率(机器等待数据的时间),提升模型训练的MFU(算力利用率),使模型训练更快。


Q:业界ML的MFU计算有明确公式吗?大概范围是多少?
A:整个ML的MFU计算,业界没有一个明确的公式,大概在34%到43%之间,波动较大。


Q:蒸馏技术是相对成熟的技术,DeepSeek在L1或者L0里做了什么额外工作,能把1.5B或7B的模型蒸馏性能做得这么好?
A:以前的蒸馏大部分没有用reasoning的模型去做蒸馏,而DeepSeek是用reasoning的模型蒸馏的,即通过DeepSeek RE蒸馏,而不是通过DistilBERT来蒸馏。用RE这种问答的推理能力蒸馏到小模型里,能让小模型效果更好或拥有推理能力效果。此前有实践发现用通用大模型蒸馏小模型效果有瓶颈,而DeepSeek RE证明了用reasoning能力或test - time reasoning的方式去做蒸馏,能明显提升模型效果,让小模型在另一维度可接受新知识和数据。


Q:直接把RL的方法用到LM上面,是做了什么改动,还是有新发现?
A:业界不是没试过,只是试的方向可能有偏差。一开始受AlphaGo启发,用强化学习加大模型时按照谷歌成功路径(用蒙特卡罗搜索树MCTS)复现,很难得到收敛结果,业界在错误路线探索。后来O1成功证明强化学习加大语言模型可能不是用MCTS这种方式,即不用MCTS也能成功。另外,强化学习训练非常难,很容易不收敛、发散,训练技巧很核心,比如调参等。


Q:把RL用在LLM上的这种行为,更多是强化学习上的trick的经验积累,还是预训练模型的进步让迅速收敛变得可能?
A:更多的是后者。训练过程中肯定用了很多trick才实现收敛,但更重要的是在过程中真正把强化学习加到大语言模型里,实现自学习过程。这背后是工程化级别积累以及算法层面创新,比如使用GPRO算法,且该算法应该是改良过的,因为训练两个模型难度很大。


Q:Deepseek用40台server做推理与两台server做推理相比,能起到降本效果吗?如何起到降本效果?随着推理机坪扩大,单机推理成本还能再降低吗?是否有瓶颈?瓶颈大概在什么水平?
A:推理成本与卡的利用率(吞吐量)有关。推理成本有瓶颈,因为使用多少卡来推与模型强相关。Deepseek有256个专家,再加64个冗余专家,共320卡(40G),这是算法与工程结合的结果。若冗余专家过多,可能导致卡闲置浪费;若将一个专家分到多个卡,会增加并行成本,通讯成本变高,推理更慢。所以成本最低可能就是320卡的集群,除非提升专家数量,否则增加卡没有意义。


Q:做COT时生成的token数量未来是否会出现单机HBM放不下的情况?
A:DeepMind和OpenAI通过算法约束COT的长度,对生成过长的COT进行负惩罚,避免其无限增长导致HBM容不下。另外,在预训练阶段一个GPU放九个专家(8加1,1个冗余),推理过程中一个专家放一张卡,这样做是为了解决可能HBM不够用的问题,因为放的专家越多,模型占用HBM容量越大,放一个专家可将更多HBM空间给到。


Q:DeepSeek V3训练成本需要2048卡,V3与R1持续互动过程中,是整套包含V3和R1只要2048卡,还是R1还需要额外算力?
A:纯粹训练V3用了2048卡,只是包括DeepSeek V3自己的预训练。后训练(知识蒸馏、用RL的GPO、强化学习等)用了多少卡不确定,有可能预训练停了腾挪机器做后训练,也可能用新集群或在V3做增量训练。后训练的卡绝对不会比预训练用的卡多,因为数据量没预训练那么大,但具体是用一个集群分时段,还是并行计算,或者多一个小集群做部分工作,不确定。


Q:DeepSeek有没有机会借助第三方开源模型来加速自己模型的训练过程?
A:明确是有的。在DeepSeek V3出来后的几天内,能明显看出它借助OpenAI的能力获取更多数据,通过问OpenAI问题并让其输出数据来进行训练。


Q:DeepSeek借助OpenAI等获取的数据是放在COT数据集里吗?
A:不一定是COT,预训练的数据也可能会用到。


Q:DeepSeek推论环节的专家有没有可能是别的大模型?
A:有可能,例如它的COT数据可能是通过其他大模型获取的。现在大模型回复能力够用,生成的数据能用于训练,数据飞轮已可行。


Q:DeepSeek的资料集截止到2023年10月,后续训练是否一定要联网模型才能继续进化?
A:大模型预训练过程中,大量数据都是在某个时间点之前收集的。


Q:DeepSeek V3这种多个小模型聚拢的形态会是主流吗?还是像M3这种单一大参数模型或GPT - 4那种多专家大参数模型是主流?
A:个人认为长期来看两种技术路线可能并存,就看哪种开源模型效果更好,大家就参考哪种。幻方坚定走MOE路线,LLaMA走稠密路线,业界哪个开源模型强就会参考哪个。


Q:海外走大参数模型路径,效果是否一定好,现在能否评判?
A:现在模型结构不是那么重要了,真正的区别在于数据、算力以及研发层面的工程能力,讨论模型结构演进差别不大,效果都能提升。


Q:业界对于大参数模型在QK缓存、大集群等方面是怎么处理的?
A:文中未提及具体处理方式。


Q:OpenAI里面的模型是稠密的还是MoE的?
A:OpenAI没公布,大家都不清楚,有一些零碎的性能信息披露但不完整。


Q:理论上做单一1.8T参数的大参数模型是否难以实现,OpenAI是否还是MoE架构,是否是专家层和专家数量设置的问题?
A:理论上做单一1.8T参数的大参数模型难以实现,估计OpenAI是MoE架构,可能存在专家层和专家数量设置的问题。


Q:未来大家都会采用TPU等非GPU策略,不再使用GPU卡了吗?
A:用GPU看起来太耗资源了,但未明确未来是否都会采用TPU等策略而不再使用GPU卡。


Q:使用GPU或TPU,结合少量监督微调后,强化学习部分的算力需求情况如何,优化前后算力差是多少,优化后算力黑洞体现在哪里,对算力的需求该如何评估?
A:强化学习很难训练,业界不确定幻方用多大集群训练、用什么技巧和强化方法。强化学习是个算法黑洞,学术界较难做出真正的MoE模型。


Q:包括OpenAI和LLaMA在内,它们实现部分应用,是有算法创新和机缘巧合因素,其他人复制是否需要多次探索?
A:确实需要很多探索,里面很多技巧大部分人不掌握,OpenAI可能在训练过程中掌握了一些技巧,所以效果越来越好。


Q:在可预见的时间内,怎样可以实现模型泛化,实现泛化模型方法的算力提升力度、需要付出的努力,以及是否需要运气?
A:泛化的技术路线不清楚,因为很多偶然性,大家都在摸索。在post-training的scaling不断往上走,消耗很多算力,现在retraining的scaling开始放缓,但training消耗资源比post-training小多少较难量化。


Q:reward会有条数限制和天花板吗,不同限制条件之间会打架吗,这个地方有可扩展空间吗?
A:可扩展性蛮大,论文里把这些限制加到模型训练的loss控制里,关键是模型学习方向、各限制条件的占比设置,不同设置效果不同。


Q:COT未来的可扩展和发挥空间有多大?
A:COT是大家认可要走的路,但从COT来看有很多研究内容,比如long context怎么做,COT的长短以及数据怎么准备,目前业界对于long context或COT方式不确定性太大,短期内大家都在研究数据编程。


Q:long context或short context实现几层思考后做输出依赖于什么,如何控制多次思考带来的指数级上升的算力需求,又如何对这个事情做评价?
A:这涉及强化学习闭环的设计,强化过程很难,难在训练过程有很多技巧,以及在大模型自问自答环境中如何控制停止,这是强化学习最难的点。


Q:DeepSeek在强化学习从训练到推理的机制探索以及COT探索方面处于什么阶段,可复制性如何?
A:DeepSeek在这方面的探索非常早期,强化学习从训练到推理的机制探索以及COT的探索都还很早期,且可复制性较差,依赖各家继续投放和研究才有可能复现,不会马上出现模型生态胜者或某种范式一统江湖的情况。


Q:DeepSeek使用的outcome reward是否会牺牲模型的泛化能力?
A:从实际算法层面讲,这个问题比较难回答。


Q:DeepSeek模型声称的600万美元成本是全部成本吗,V3模型600万美金成本是怎样的情况?
A:600万美元成本只是正儿八经训练模型的成本,试错、数据准备等之前的沉默成本(包括V1、V2阶段)都没算进去,现在只算了V3相关的58天真正训练的成本。


Q:DeepSeek调用OpenAI的数据训练,是否意味着它并非完全靠600万美金白手起家做出来的?
A:肯定不是完全白手起家,现在大家都在用数据飞轮,数据获取方式多样。


Q:DeepSeek开源后,美国的AI公司是否可以采用其解决方法大幅缩减训练模型成本,减少对英伟达服务器和算力的需求?
A:国内跟风程度高,很可能会参考DeepSeek方案,比如某厂长想建万卡集群训大模型可能会参考。但国外技术自主路线较强,像OpenAI可能搞M1(与其他模型专家情况不同),拉马坚定走稠密路线,国外和国内技术情节不同,对范例需求也不一样,国外不太会这么做。


Q:国内后来者能否借着DeepSeek成功的路线很快做出特别成功的模型?
A:在预训练方面可以,但在真正的MOE方面比较难。


Q:DeepSeek模型如果要继续演化,比如做多模态或更复杂的模型,现有的低成本路径能否持续成功演进?
A:这取决于工程优化,如果像DeepSeek v3那样进行工程和算法双向优化,成本会被摊薄。目前OpenAI增速放缓,业界开始做优化,若OpenAI快速发展,业界可能会先全力追赶而顾不上优化。


Q:DeepSeek直接把IL用在IM模型上,除提升效果外,有什么特别意义?
A:用强化学习最重要的是让模型具备自我推理能力,SFT做不到长文本的自我演绎,强化学习能让模型有自问自答的过程,整体学习方式不同。


Q:强化学习只能在max和口径之中,word model特别明确的东西上应用吗?
A:不一定,现在word model的设计本身就是个问题,在强化学习里,强化过程因变量太多很难控制。不过在max coding上可以做出非常明确的word model,属于垂类场景。


Q:DeepSeek用的强化学习方式在创作类工作上能否复制?
A:创作类工作可能不是RL路线,或者不是针对R系列或OpenAI的O系列。OpenAI的O系列针对的是AI for science或有明确垂直场景的客户群体,并非创作性或普通问答的客户群体,强化学习是垂类场景应用。


Q:如何看待DeepSeek模型在推理端成本下降,是因为可同时接入的用户访问数多、效率提高吗?
A:对,是因为吞吐变大了,不再追求极致资源,而是用一部分资源换吞吐。


Q:其他模型能否采用DeepSeek的方式降低推理成本?
A:不能。幻方模型采用Mixture of Experts的架构,是算法跟工程相结合的。它有256个专家,每个GPU放一个专家,再加64个专家凑成320卡。而像Llama没有专家,若将其模型的层切到不同卡上,需用张量并行(TP),其通讯成本比专家并行高很多,专家并行走point-to-point通讯,张量并行走reduce通讯,通讯量大且对通讯带宽要求高。所以其他模型不能完全按照这种方式做,这是算法与工程相结合的优化,难以模仿。


Q:DeepSeek的推理成本大概是Llama的几分之一?
A:不好比。Llama模型架构不同,可配置方式不同,用不同数量的卡(如32卡或64卡)去推不同规模(四百多亿或四千多亿)的模型,结果完全不一样,所以可能得定性分析,难以定量比较。


Q:用优化方法推理后,DeepSeek的成本相比Llama有优势吗?
A:不一定。因为大家可能都会做极致性能的优化,目前没做过对应的实验,所以不能判断谁的成本更低。


Q:DeepSeek的方式是否使推理成本比以前的模型下降很多?
A:从技术层面,幻方的方案能明确看出其推理成本比其他模型要便宜。但有个前提,就是访问的用户量要足够把管道充满。


Q:需要多少数据才能使DeepSeek达到最高效率?
A:没做过对应的实验,没办法给出确定的答案。


Q:能直接得出DeepSeek推理成本下降的结论吗?
A:没有办法直接得出推理成本绝对会下降的结论。从定价、模型参数设置等来看,幻方增大吞吐是为了降低token数等,但这有个前提,其并发量吞吐量得大,才能使价格变低。很多技巧难以完全定量分析。同时,其专家并行设计虽能同时处理更多专家,推理效果可能更好,但要同时处理非常多推理请求,才能得出推理成本降低的结论,即其同时处理的请求或batch size得大,否则做不到那么低的价格。


Q:假设预参数都一样,针对专业性问题专家充满的情况下,V3相对Llama的算力能降低多少?
A:两者算法不一样,无法横向对比算力降低情况。


Q:针对科学或专业性问题,模型的处理能力如何,是否有学科化划分?
A:Llama模型非常垂直化,针对math或者coding这一类的逻辑推理能力比通用大模型强很多。


Q:专家很多的情况下,能否降低预训练的算力支出以降低算力成本?
A:不会降低。有一个重要工作是均衡负载,通过新设计的损失函数方案,尽可能让每个专家处理的数据量差不多,使每个专家都跑满,这也是V3专家量能变大的原因。


Q:在哪些条件下,V3会比Llama的训练成本低很多?
A:V3的训练成本确实低。首先其算法DeepSpeed v3能让专家尽可能跑满;其次使用了FP8,相比BF16能提升训练效果和性能。把这些技术应用上去,使用的算力会比Llama少。


Q:训练相同问题,使用英伟达的卡,用量会是原先的十分之一吗?
A:是不是四分之一不确定,但至少肯定比原先少。而且使用4K可能会更快,但如果没掌握训练技巧,可能无法完成训练。


Q:在推理端,MOE是不是更适合垂类直接应用项目,Dense更适合分化性更强或多模态项目?
A:没有这个结论。比如Kimi不是稀疏架构,也没表明MOE架构就比稠密架构在处理上差,不能简单层面去对比。


Q:考虑成本,MOE会成为推理模型的主流架构吗?
A:这要看推理场景。在云端有大量用户访问请求的前提下,使用MOE架构,在所有管道都充满时,能提升性价比和吞吐。但如果场景是在板载卡或推理卡上追求极致时延,稠密模型更合适。


Q:若厂商从Dense架构转向MOE架构,短时间内推理端的算力需求会下降吗?
A:推理端有可能会出现算力需求下降的情况。现在能看到的趋势是,大家以前用A100、A40做推理,现在慢慢转向用H800、H100或者A800做推理,将推理转向用训练集群来解决。


Q:预训练中会有强化学习的应用吗?
A:不太会有。强化学习太难控制和掌握,模型集群越大越难控制,算法调参也更复杂。而模型算法结构简单才便于做大规模扩展,所以强化学习大多用在后期,放在预训练中太难控制和扩展。


Q:推理成本高低跟MoE模型专家数量之间有没有关系?
A:推理成本高低与专家数量有关系。专家数量越多,一个卡能放的专家有限,且要考虑专家参数量大小,参数量大就可能需增加卡数量,卡间切分还会使通讯成本增加。这需要算法和做推理优化的人一起去尝试找到最优点,不能简单说哪种方式成本更低。


Q:为什么专家并行用one-to-one的通信,张量并行要用all-reduce ?
A:这是由算法机制决定的。


Q:专家之间的通信实现成本是不是比模型切到不同卡之间的张量并行通信实现成本更低?如果效果相同,拆成多个专家在通信层面是否更优?
A:是的。以幻方用2048卡(H800)训练的并行策略为例,其张量并行(TP)等于1,没有做TP切分和MP切分,all-reduce很低,主要把batch size变成64,八个节点64卡,其他给数据并行(DP)。这是根据H800带宽只有400Gbps的性能,将TP降到很低,尽可能打满400Gbps带宽。


Q:LLaMA或者openAI的GPT系列,它们的并行策略与幻方的区别是什么?
A:openAI没公布相关内容,都是闭源的,所以没办法去比较。


Q:在推理端,最优的集群规模是怎样的,国内和海外有区别吗?
A:这与专家数量强相关。


Q:如果未来模型专家数量增加到1000个或几千个,是否需要几千卡互联?
A:不一定是一个专家一个卡,有可能一个卡放一两个专家。


Q:专家并行的通信速率要求是不是比张量并行更低?
A:专家并行用的是O2O通讯,底层是小规模数据、多频次交互;All-to-All通讯(张量并行相关)特点是数据量大、通讯频次少。All-to-All对带宽和时延要求都很高,O2O对带宽要求没那么高,但对时延要求高。一般TP尽可能到8,因为TP出节点(服务器)会变慢。


Q:如果Inference层面进化到B系列,DP是否可以到72 ?
A:到B系列可以把TP做大。但因为用了下一代集群,模型算法可能就不一样了。幻方是根据H800去反推模型配置和参数设计的。


Q:如果从S800上升到B系列,假设能拿到B线机柜,变现策略会有什么样的变化?MOE在B系列时优势会变大还是变小?
A:这得看采用什么生产结构。对于MOE结构在B系列中的优势问题,目前没有办法给出明确结论。


Q:国内的公司如小米等能否复制DeepSeek的AI路径来开发自己的模型以降本?
A:国内复现AI可能性不太大,进程会比较慢。AI训练难度大,不是容易抄袭的。但DeepSeek开源后,若有充足数据量和强大的做中间件的研发团队,可以借鉴DeepV3模型架构提升模型效果。


Q:DeepSeek对AI应用及应用生态有什么影响?
A:DeepSeek V3是通用大模型,训练成本有所下降。而AI主要针对垂类场景,未来会出现更多垂类新应用和新用户群体,比如学生做数学逻辑推理等场景。


Q:美国除全面禁止显卡出口外,还可能从哪些层面限制国内大模型发展?技术层面有什么可能性?
A:比较粗暴有效的限制方式是不卖卡,但这不太现实。技术层面上没有限制方法。国内可以在有限资源内设计算法提升模型效果,美国难以防范。


Q:从投资角度,DeepSeek对算力总需求是否有本质性的指数级变化影响?
A:这取决于美国训练模型时是否像国内一样精打细算。如果不考虑成本,对算力总需求不一定有大的影响;如果想压低成本,深挖每一代GPU架构的算力极限,才可能对算力总需求产生本质影响。


Q:DeepSeek的RL的PPO逻辑和PPO具体优化的点是什么?
A:PPO涉及复杂的逻辑调度,原本有四个模型,actor生成数据和分布,critics通过reference model约束并更新critics model,critics model又需其他model约束更新,老师的答案形成world model评判actor model输出。现在将其中两个模型变成一个函数,减少了一个完全相同参数的模型,使训练更易、更稳定。


Q:在DeepSeek的奖励模型里,实现格式奖励的难度如何?
A:实现格式奖励难度不大,但确定每个奖励对模型的作用和影响大小很难。目前文章只列了正确性奖励和格式奖励,对于COT长短的奖励、针对垂直场景(如生成代码长短)的奖励等,不同奖励在通用场景和垂直场景中的配比不确定,需要很多调参技巧,不一定能做出效果。


Q:如果按照节约算力的大小来看,Deepseek的算力节约主要来自哪几个环节,哪些环节比较出色?
A:有三个比较重要的环节。一是dual pipeline设计,实现了双流并行,使得计算跟通讯几乎全面掩盖,这种新的pipeline方式此前从未有人想象过;二是FP8,首次成功实践混合精度的FP8,与BF16的运算量级不在同一层面,是全新尝试;三是并行策略,采用真正的TP等于1,EP等于6的并行策略,做了新的尝试和探索,这三个点使得模型的硬件算力利用率和使用的算力资源极大降低。


Q:对于post training阶段的计算范式如何消耗算力,能否进行评估?
A:现在没法评估,这是个算力黑洞,大家不知道怎么去训练、使用,只是不断消耗资源、不断尝试,目前处于这样的阶段。


Q:是否可以得出预训练以后会普遍降本,post training各凭本事的结论?
A:老黄画的曲线有一定正确性,预训练开始降本,post training开始升,但涉及的算力规模量可能不同。

来源:全产业链研究

相关推荐