幻方Deepseek的新模型强化了算力逻辑

B站影视 2024-12-30 09:05 2

摘要:V3训练成本非常便宜。V3的Paper里提到训练总共需要2788k H800 GPU Hours,如果以H800租赁价格2$/GPU hour计算,只需要558w美金。

1,V3训练成本非常便宜。V3的Paper里提到训练总共需要2788k H800 GPU Hours,如果以H800租赁价格2$/GPU hour计算,只需要558w美金。

2,性能非常不错。在基准测试里能和GPT-4o以及Claude3.5打的有来有回,甚至在Code和Math能力上全方位碾压Claude3.5 Sonnet和GPT-4o。

这个成绩确实非常夸张,等于小米加步枪战胜了飞机加大炮,难怪AI大神Andrej Karpathy也在社交平台上说:

在资源限制下,它将是一个非常令人印象深刻的研究和工程展示...这种级别的能力需要接近16K的GPU集群,而现在实现的集群更多的是 100K GPU 左右。这是否意味着前沿 LLM 不需要大型 GPU 集群?

现在已经有很多内容解释了V3的架构创新、工程优化等等非常多Paper里的东西,比如架构创新DeepSeek提到了“Multi-head Latent Attention (MLA)高效处理长文本”、“DeepSeek MoE 架构”和“无额外损耗的负载均衡(用于MoE优化)”,都是很牛的创新了。比如V3的MoE架构“通过细粒度专家策略、共享专家和 Top-K 路由策略,V3实现了模型容量的高效扩展,稀疏激活的机制,使得 DeepSeek-V3 能够在不显著增加计算成本的情况下,拥有庞大的模型容量。”工程优化里涉及“流水线并行、通信优化、内存管理和低精度训练”等等方面...

这里不再聊那些paper里写的很详细的创新点,简单讲点更基础的东西。v3的重点是MoE——混合专家模型。MoE其实就是将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,每个MoE层由一个门控网络和若干数量的“专家(独立的神经网络)”2个核心部分组成。门控网络负责把token发送到哪个“专家”,经常是同时发送给多个“专家”,由这些专家同时进行预训练,等于提前做好了一些可以处理特定任务的“神经网络”,并行开始训练

那么MoE就有很明显的优势,与稠密模型相比:

(1)预训练速度更快;(2)与具有相同参数数量的模型相比具有更快的推理速度;(3)需要大量Memory,因为所有“专家”都需要提前加载到Memory中。

但是MoE劣势也很明显,这是后面讲到的算力逻辑的核心了:

(1)泛化能力不足,时间长了容易过拟合(就是只能做特定题目,换个相同知识点的其他题目就不会了);(2)对微调的能力要求非常高,也就是说要非常精确的知道未来的推理应用指向何方,否则模型就会彻底失败,因为泛化能力比较差。(3)对内存的需求非常高,因为需要提前加载“独立的专家”。

所以除了DeepSeek非常卓越的优化和微调工作之外,v3更严格说是一个推理模型,是建立在通识大模型基础之上的“强调Coding和Math”的推理模型。

精简的总结一下

1,首先FP8的训练本身就不怎么耗资源(当然DeepSeek最牛的就是首次去做了这个尝试,还成功了),而且这个是奔着优化MoE去的,就是已经限定了大模型的能力和指向,减小了很多不必要的消耗;

2,OpenAI和Antropic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DeepSeek这个模型加入了很多“设定”或者说优化的因素,就是知道这样有效,现在在尝试怎么微调更有利于提高推理能力;

3,大模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队;

4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。明年具身智能一定会爆发了,文本数据维度太低,这个东西再怎么练终究无法使得GPT-5真正达到博士能力,你见过那个理工科学术博士不动手做实验的?

所以DeepSeek的v3指向的是推理,也就是应用。那么DeepSeek牛x的工作意味着什么?

意味着现在o1程度(略弱)推理应用将不再受资源限制,未来OpenAI或者Anthropic搞出新代大模型之后,我们依然可以通过类似的手段大幅提升推理能力,直接指向应用

也就是说:

明年不仅仅是老美,我们国内的AI应用也会井喷,层出不穷的AI应用和新的大模型的尝试。因为路走通了,不用担心巨额的投资打水漂,这是DeepSeek这次开源模型v3的最大价值!

所以到这里,算力逻辑就很清晰了:

(1)对于美国,算力投资不受影响而且会加速,考清华的同学也要买习题了

其实这次v3的表现在英文社区并没有像某些朋友讲的那么火爆,美国每天类似的事情不少的,v3让他们看到了中国同行的优秀和加速追赶。那么对于飞机加大炮来说,未来在资源投入上必将更加的疯狂,因为美国科技巨头之间的战争在于先进性和创新性,确实是在探索未知的东西。

但凡要突破,就得百倍,还不一定搞的出来。搞出来了有样学样就又快了。这次v3的训练数据集用FP8精度,这摆明了“开卷考试”,相当于老师已经把题目5种解法都讲过了,而且告诉你第5种可以5分钟解出数学最后一道答题,你可以尝试。结果一试试成了,就成了以后解答类似题目的“妙解”。

文本生成,到多模态,再到全模态,再到物理世界全模态,这都不一样级别的资源消耗和探索难度。那么现在美国科技公司一方面巨头之间要pk,一方面这下还要应对中国同行优秀的微调手艺,扩大军备竞赛、突破大模型通识能力的上限,同时加大推理算力的投入实现产品商业化,加速奔跑基本是唯一路径。要考清华的同学发现后面的同学进步神速,是不是也得买点资料努努力?

美国科技巨头现在不可能去花精力探索v3干的事情,既然v3做过了,那么再现一下,做一些研究就可以。这甚至是OpenAI们产品团队做的事情,如何搞出更优秀的推理模型,做出更有性价比的应用,而不是弄个2000美金/月的东西让人无法理解。

(2)对于国内,DeepSeek打开了新一波大模型&推理模型的投资窗口

这个不用多说了,花不到600w美金就可以做出如此牛的模型,那么会激发大量有好的创意和想法的同行跃跃欲试。现在正是AI应用爆发的窗口期,v3的成功将会提高国内AI开发团队加速投资、加快研发、努力产品化的信心和急迫感。

一言以蔽之:中美明年下游同时爆发,那么上游算力逻辑就是被加强了。淘金热什么时候最火热?当然是大家都相信而且自己好像看到金子的时候,那么这时候反而恰恰是“铲子”最赚钱的时候,买越多的铲子,就能挖到更多的金子,而不是“隔壁老王用一个铲子挖到了我10个铲子的金子,那么我也扔掉9个铲子”的逻辑。

那么下面要聊的话题就非常顺理成章:

如果AI应用爆发,那么什么样的AI应用才有资本估值逻辑,能够“更值钱”?

答案是:社交连接应用。

其实未来的AI应用有2种实现资本膨胀的路径:

(1)人类顶尖智慧的模型化。我们会为顶级通识能力和专业能力付费,比如Ilya,李飞飞,包括现在的OpenAI和Antropic搞出的相对成熟的应用,必买;同样,还有这个维度的最顶尖的专业模型,比如提升数学家工作效率的专业模型、提高芯片工程师开发芯片的模型(英伟达有一个)等等,这个也有巨大的商业价值。

但是这类模型的商业价值,不适合大部分公司去尝试,这是金字塔顶端的东西。同时在专业领域最顶尖的应用不一定就有最高的资本价值。

(2)社交连接。比如AI Agent,各种AI助理也是连接,能够大幅提升我们和世界有效社交和连接的AI应用,是最具膨胀潜力,也最具有资本价值的。这样的应用天然可以扩散,比如目前最大的科技巨头,干的都是连接的活儿,只有社交和连接,才具有必需+扩张两重属性。

某种AI功能,比如Github上很多应用,比如将给定的图片换风格,功能都很好,但是没有社交属性,没有办法做广泛的连接也就没办法社交。那么他的扩散属性就会有点问题,资本估值就受限。

这个之后再重点讨论。总之就是最有资本价值的AI应用是那些“更有情商”的应用,更有情商意味着能更好的帮我们连接世界。不要人为设限,AI应用本身甚至有连接其他模型的能力,那就更牛了。就像AI助理,ta可能帮我们处理工作,更重的是帮我们处理对外事务,这是真正的价值。而那些“把一些AI应用搞一个超市”的某60平台,毛价值没有...

最后谈一谈具身智能。OpenAI之前传出来要搞人形机器人,弄了一个GPT-5+机器人的图片,其实这个就是全新的探索了。马斯克牛x之处就在于他的大模型一直就练的物理世界真实数据,Tesla一直在搜集物理世界数据,Optimus未来也无时无刻不在搜集数据,这些数据量无穷无尽且维度非常高…

那么特斯拉的数据天然就是用在机器人身上,然后再依葫芦画瓢整现在的GAI,会发现能力提升的很快。对于现有大模型来说,如果应对未来物理世界的探索,是全新的课题,那么军备竞赛不仅不能停,必然又得加速了...

御弟马斯克框框买卡,我们就别质疑算力逻辑了...哪有算力整哪里,为的就是鸟枪换炮未来有朝一日能真的和老美一较高下。

来源:全产业链研究一点号

相关推荐