DeepSeek核心技术

B站影视 2025-02-03 15:34 3

摘要:MLA(Multi-Head Latent Attention,多头潜在注意力机制)是DeepSeek提出的一种改进型注意力机制,主要对传统Transformer中的多头注意力机制(MHA)进行了优化,具有以下特点:

1、MLA架构

MLA(Multi-Head Latent Attention,多头潜在注意力机制)是DeepSeek提出的一种改进型注意力机制,主要对传统Transformer中的多头注意力机制(MHA)进行了优化,具有以下特点:

• 低秩压缩:MLA通过低秩联合压缩技术,将Key和Value(KV)特征从高维压缩到低维。在推理时,只需缓存压缩后的潜在向量,显著减少了KV缓存的存储开销。例如,其显存占用仅为传统MHA架构的5%-13%。

• 稀疏激活:MLA是DeepSeekMoE架构的一部分,采用稀疏计算方式,每个token仅激活模型参数的一个子集。这种稀疏激活机制减少了训练和推理过程中的计算需求。

• 性能提升:尽管进行了压缩和稀疏化处理,MLA仍能保持与标准MHA相当的性能。在DeepSeek-V2中,MLA使得模型在推理时仅激活21B参数,但性能仍达到顶级开源模型水平。

2、DeepSeekMoESparse结构

DeepSeekMoESparse是DeepSeek提出的一种稀疏混合专家模型(MoE)架构,主要特点如下:

• 细粒度专家分配:DeepSeekMoESparse通过将一个专家FFN(前馈网络)输出切分为多个细粒度专家,增加了专家数量。例如,在DeepSeek-V3中,每个MoE层包含1个共享专家和256个路由专家,每个token激活8个专家。

• 负载均衡优化:该结构优化了负载均衡机制,为每个专家设置token上限,避免专家使用不均衡。此外,DeepSeek-V3还引入了无辅助损失的负载均衡策略,通过动态调整专家偏置项来优化路由决策,确保专家负载均衡。

• 计算量降低:DeepSeekMoESparse通过稀疏激活和细粒度专家分配,显著降低了计算量和显存占用。在推理时,仅需计算部分专家的输出,从而大幅减少了计算资源的需求。

3、总结

MLA架构和DeepSeekMoESparse结构是DeepSeek在大语言模型领域的两项重要创新。

MLA通过低秩压缩和稀疏激活机制,显著降低了显存占用和计算量,同时保持了高性能;DeepSeekMoESparse则通过细粒度专家分配和优化负载均衡,进一步提升了模型的效率和经济性。这些创新使得DeepSeek的模型在保持高性能的同时,大幅降低了推理成本,成为大语言模型领域的重要突破。

来源:小羊看科技

相关推荐