摘要:MLA(Multi-Head Latent Attention,多头潜在注意力机制)是DeepSeek提出的一种改进型注意力机制,主要对传统Transformer中的多头注意力机制(MHA)进行了优化,具有以下特点:
1、MLA架构
MLA(Multi-Head Latent Attention,多头潜在注意力机制)是DeepSeek提出的一种改进型注意力机制,主要对传统Transformer中的多头注意力机制(MHA)进行了优化,具有以下特点:
• 低秩压缩:MLA通过低秩联合压缩技术,将Key和Value(KV)特征从高维压缩到低维。在推理时,只需缓存压缩后的潜在向量,显著减少了KV缓存的存储开销。例如,其显存占用仅为传统MHA架构的5%-13%。
• 稀疏激活:MLA是DeepSeekMoE架构的一部分,采用稀疏计算方式,每个token仅激活模型参数的一个子集。这种稀疏激活机制减少了训练和推理过程中的计算需求。
• 性能提升:尽管进行了压缩和稀疏化处理,MLA仍能保持与标准MHA相当的性能。在DeepSeek-V2中,MLA使得模型在推理时仅激活21B参数,但性能仍达到顶级开源模型水平。
2、DeepSeekMoESparse结构
DeepSeekMoESparse是DeepSeek提出的一种稀疏混合专家模型(MoE)架构,主要特点如下:
• 细粒度专家分配:DeepSeekMoESparse通过将一个专家FFN(前馈网络)输出切分为多个细粒度专家,增加了专家数量。例如,在DeepSeek-V3中,每个MoE层包含1个共享专家和256个路由专家,每个token激活8个专家。
• 负载均衡优化:该结构优化了负载均衡机制,为每个专家设置token上限,避免专家使用不均衡。此外,DeepSeek-V3还引入了无辅助损失的负载均衡策略,通过动态调整专家偏置项来优化路由决策,确保专家负载均衡。
• 计算量降低:DeepSeekMoESparse通过稀疏激活和细粒度专家分配,显著降低了计算量和显存占用。在推理时,仅需计算部分专家的输出,从而大幅减少了计算资源的需求。
3、总结
MLA架构和DeepSeekMoESparse结构是DeepSeek在大语言模型领域的两项重要创新。
MLA通过低秩压缩和稀疏激活机制,显著降低了显存占用和计算量,同时保持了高性能;DeepSeekMoESparse则通过细粒度专家分配和优化负载均衡,进一步提升了模型的效率和经济性。这些创新使得DeepSeek的模型在保持高性能的同时,大幅降低了推理成本,成为大语言模型领域的重要突破。
来源:小羊看科技