摘要:春节这阵子,DeepSeek带着AI大模型火出了圈,大家都说DeepSeek公司和旗下AI大模型有多好多好,但很少提及具体的创新点在哪里。今天我们就来聊聊DeepSeek具体创新了些啥。
各位小伙伴儿过年好哈。
春节这阵子,DeepSeek带着AI大模型火出了圈,大家都说DeepSeek公司和旗下AI大模型有多好多好,但很少提及具体的创新点在哪里。今天我们就来聊聊DeepSeek具体创新了些啥。
以往,大家普遍认为算力是AI的核心,发展AI就是要不断的堆算力、堆GPU。于是我们看到,OpenAI兴起的时候,不仅英伟达(NVIDIA)因此受益,只要沾边AI的东西都“飞起”。美国佬更是通过禁售英伟达GPU来遏制中国AI发展。
但就在大家烧钱堆算力的时候,DeepSeek选择烧脑改算法,下面那我就来捋一捋DeepSeek那些创新的点。(如有不对,欢迎指正):
1、首先我们先看是DeepSeek-V2
DeepSeek-V2可以说是DeepSeek的第一次小出圈,当时靠着超低价格直接让国产大模型厂商纷纷降价,那么为什么DeepSeek-V2能做到如何低价呢?
为了实现高效的推理和成本效益高的训练,DeepSeek-V2采用了两大创新:DeepSeekMoE架构和多头潜在注意力(Multi-head Latent Attention,MLA)。这两个技术创新分别针对 Transformer 架构中的不同瓶颈,成为DeepSeek-V2出圈的关键所在。
下面我们来看下什么是MoE架构?
我们都知道,Dense大模型是目前国外主流的模型架构,DeepSeek-V2放弃了DeepSeek-V1的Dense(密集)路线,转而使用MoE(混合专家模型)路线。
Dense的缺点就是参数量大,硬件消耗大,这也导致之前的大模型价格高。MoE由多个子模型(即“专家expert”)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。
相当于把dense大模型变成很多个sparse(稀疏)的专家(expert)小模型,通过多个模型聚合来达到和dense大模型相当的能力。转成MoE架构,DS-V2不仅激活参数量大大减少,并且性能提升很高。
举个例子,传统的大模型就好比一家几个顶级厨师的餐厅,每个厨师擅长所有的菜系,但当大量复杂的菜品出现时,厨师忙不过来反而会造成效率低下。MoE模型则相当于招了更多的没那么高级厨师来说,但是每个厨师会不同的菜系,在面对复杂的菜品时,模型能够根据菜品的特点,智能地将其分配给最合适的厨师处理,从而提高处理效率,减少不必要的资源浪费。
可能有人有会问,MoE这么好为什么国外大模型不爱用呢?
其实主要原因就是MoE大模型有个问题叫负载均衡(load balance),会导致训练不稳定。这会导致一个问题,就是训练过程中会采用所谓的专家并行(expert parallelism)机制,通过将不同的expert放到不同的显卡上来加速训练,而load balance问题会导致某些重要的expert计算量更大,最终结果就是不重要的expert所在的显卡跑不满,效率不够高。
DeepSeek-V2则在一些现有的解决load balance问题的方法基础上,引入了额外的损失函数(即设备级平衡损失和通信平衡损失,下图)来让模型在训练中自主控制不同设备间的平衡,这两个优化方法都是他们的创新点。
DeepSeek-V2的另一大创新是MLA(Multi-Head Latent Attention,多头潜注意力,下图)。
下面我们大概简单说下。
在大模型运行过程中,每次生成一个token(可以大概理解为一个字),而每个token只与之前的token有关。在不进行优化的情况下,每个token生成的时候都需要把之前所有的token都处理一遍,这样的话效率非常差。
由于每个token只与之前的token有关,我们就可以把上一次生成过程中计算过的矩阵保存下来,这样生成下一个token我们可以复用这个矩阵,只需要计算新token的注意力即可。这个技术叫做kv-cache,是目前大模型非常常用的优化算法。
但是kv-cache需要额外的显存保存这些kv-cache,这样的话在上下文(context)很长的情况下显存占用会非常高。尤其是在实际部署时服务器一般会批量处理并发请求,这样的并发请求会带来恐怖的kv-cache量,会导致显存不够用。
MLA通过低秩联合压缩键值(Key-Value),将它们压缩为一个潜在向量(latent vector),从而大幅减少所需的缓存容量。这种方法不仅减少了缓存的数据量,还降低了计算复杂度。MLA在我看来是个天才的想法,比较有趣的是去年梁文峰的访谈提到这个MLA是某位研究员突发奇想想到的。当然从想法到落地还是很难的,据他所说用了几个月。
同样用上面的饭店来举个例子,传统的大模型就好比一家拥有众多服务员的餐厅,每个服务员从头到尾独立负责自己客人的记菜单、传菜、结账、清洁等工作。当有大量复杂菜品出现时,这就可能会出现多个服务员重复记录相同订单、传菜时堵在厨房门口的问题。
MLA技术让所有服务员共享一个智能平板,能实时同步订单、桌号、菜品状态(省去重复记录);上菜时,只有负责上菜的服务员工作,其他人在需要时才会介入(按需分工)。这样既能更快地完成任务,又能保证每部分任务的完成质量。
2、接下来我们来看下DeepSeek-V3的创新。
DeepSeek-V3在2024年12月发布,发布时候引来了极大的关注,也是DeepSeek第一次大范围出圈,其训练成本低的令人吃惊。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架构合MLA技术,但DeepSeek-V3引入了MTP(Multi-Token Prediction,多token预测)机制。
我们都知道,传统的大模型(LLMs)都是decoder-base的模型结构,也就是无论在模型训练还是在推理阶段,对于一个序列的生成过程,都是token-by-token的。每次在生成一个token的时候,都要频繁跟访存交互,加载KV-Cache,再通过多层网络做完整的前向计算。对于这样的访存密集型的任务,通常会因为访存效率形成训练或推理的瓶颈。
针对token-by-token生成效率的瓶颈,业界很多方法来优化,包括减少存储的空间和减少访存次数等,进而提升训练和推理性能。
而DeepSeek-V3的MTP,通过对MTP模块的重新设计,使得同时生成的多个token之间有了相互的联系,从而对数据的利用率更好,而且MTP在生成时可以通过更好的预先规划产生更好的生成结果。
就像饭店的服务员,在顾客点主菜后,立马建议甜点和饮料,提前准备服务,而不是等顾客一个个点完,从而使服务更加流畅、体验更好。
除了架构上的升级,DeepSeek-V3的成本之所以能做到那么低,主要原因是优化了训练的方法。
比如一般来说现在的大模型都采用BF16精度训练,而DeepSeek-V3原生采用FP-8精度进行训练,FP-8精度训练的效率是BF-16精度约1.6倍。他们为了稳定的FP8训练对运算底层操作进行了大量优化,因为英伟达本身没有对FP8进行太好的优化,毕竟大部分AI企业都是再用BF16进行训练。另外DeepSeek-V3还优化了并行流水线(pipeline)共同造就了DeepSeek-V3“AI拼多多”般的低成本。
3、DeepSeek-V3的创新
在2025年1月,DeepSeek-V3发布。相比于V3,DeepSeek-R1创新性主要体现在“范式转换”上。
一直以来,LLM的训练方式都是让模型跟着数据学生成,这种方式称之为监督学习(Supervised Finetuning,SFT)。而R1采用了强化学习(Reinforcement Learning,RL)的方法。
RL通俗来说就是让模型(agent)和环境(environment)进行互动,然后通过其互动的结果进行打分(reward),从而训练模型。大语言模型此前采用的RLHF(人类反馈强化学习)也是RL的一种。但和RLHF不同的是,R1采用的RL方法(称为GRPO,Group Relative Policy Optimization,组相关策略优化,下图)并不需要一个庞大的人类标注数据库。
他的训练方式很简单:让模型自己生成过程,最后只检查结果是否正确。如果是数学题,那么就看输出的结果文本;如果是编程题,那就看运行后的结果。而DeepSeek发现,在V3的基础上直接采用这种简单的RL,竟然能让新的模型具有推理(Reasoning)的能力,而且随着训练步数增多,其思维链(Chain-of-Thought,CoT)的长度也越来越长,并且发现模型开始在推理过程中自我反思。
这个纯RL方法练出来的模型就是R1-Zero,是完全RL训练出来的模型,一开始没有教模型任何围棋知识,一切全靠模型自己摸索,最后达到超越人类)。但是DS发现R1-Zero的CoT并不是很完美,最大问题是可读性很差。
所以他们利用R1-Zero生成了一批带有CoT的“冷启动样本”,然后对V3进行了一次SFT,这样就获得了一个初步能够进行推理的模型(称为模型1)。接下来他们对模型1进行一次基于GRPO的RL(和R1-Zero一样),然后用这个模型1生成一批高质量的推理数据集。接着,再用V3生成一批没有推理的数据集(主要用于保证模型的文科类能力,比如写作、事实问答)。然后将这两个数据集合并(文理科合并),重新对V3进行SFT,获得模型2,再对模型2进行基于GRPO的RL,最终获得R1。
R1证明了一件事:就是如果基础模型能力够强(如V3),在RL过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1之后惊呼AGI竟然离我们如此之近的原因:因为R1说明能力足够强的模型是可以不依靠人类自己进化的(当然,严格来说现阶段的reward还是需要标签的)。
4、模式创新,“绕过”通用,从垂直场景切入。
根据DeepSeek公布的跑分数据显示,DeepSeek-R1在培训后阶段大规模使用强化学习技术,在数学、代码、自然语言推理和其他任务上,其性能可与OpenAI o1正式版本媲美,而价格仅为o1的3%。
但这并不意味着DeepSeek-R1超越了OpenAI o1,毕竟OpenAI优先追求的是“通用智能”,投入大量资金人力,想要的是全能通才的效果。国内企业开发AI大模型也大都沿用这一思路,希望自家大模型没有什么明显的能力短板,快速达到可商用水平。
而DeepSeek选择从垂直场景切入,先追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。这是一种能够快速成长和建立差异化优势的发展策略。
因为,笔者认为,目前中国的大模型企业,不必都扎堆死磕“全能大模型”,可选择垂直场景靶向爆破:这样既能规避与通用模型的算力绞杀战,又能通过构建起数据护城河,进而在细分领域闯出一片天。
来源:了不起的云计算