2025年主流LLM架构深度解析：那些让大模型更高效的&

摘要：从2018年GPT架构诞生至今，七年时间里，大语言模型（LLM）已经从实验室走向了日常。当我们对比2019年的GPT-2和2025年的DeepSeek-V3、Llama 4时，会惊讶地发现：它们的核心骨架依然是Transformer，但"血肉"早已天翻地覆。

从2018年GPT架构诞生至今，七年时间里，大语言模型（LLM）已经从实验室走向了日常。当我们对比2019年的GPT-2和2025年的DeepSeek-V3、Llama 4时，会惊讶地发现：它们的核心骨架依然是Transformer，但"血肉"早已天翻地覆。

positional embeddings从绝对编码进化到旋转编码（RoPE），Multi-Head Attention逐渐被Grouped-Query Attention取代，GELU激活函数换成了更高效的SwiGLU。这些看似零碎的改进背后，藏着LLM开发者对"效率与性能平衡"的极致追求。2025年的主流LLM架构，更是在这条路上走出了诸多创新方向。本文将结合Sebastian Raschka的深度分析，用通俗的语言拆解这些模型的核心设计。

如果把LLM比作一座大楼，Transformer就是它的钢筋骨架。七年来，这个骨架从未被彻底推翻——毕竟自注意力机制（Self-Attention）解决了序列数据的长距离依赖问题后，还没有出现更优的替代方案。但大楼的"装修工艺"却一直在升级：

内存优化：早期模型处理长文本时，键值缓存（KV Cache）会快速占满内存，就像衣柜里堆满衣服后再也塞不下新的；现在的模型通过压缩、共享等技术，能让"衣柜"装下更多内容。计算效率：以前模型的每部分参数都会全程工作，好比全家所有人不管需不需要都要一起做饭；现在的模型会让"专业分工"，只调用需要的"厨师"，既省力气又出效率。训练稳定：早期模型训练时容易出现"损失波动"，像开车时频繁急转弯；现在的归一化技术让训练过程更平稳，如同在高速路上匀速行驶。

2025年的主流模型，无论是DeepSeek-V3的万亿参数规模，还是Qwen3 0.6B的"小而美"设计，都围绕这三个方向做文章。接下来，我们逐个拆解这些模型的核心创新。

2025年1月，基于DeepSeek-V3架构的推理模型R1一经发布就引发轰动。这个拥有6710亿参数的"巨无霸"，不仅性能超过4050亿参数的Llama 3，推理时的资源消耗反而更低。它的秘诀在于两项核心技术：Multi-Head Latent Attention（MLA）和Mixture-of-Experts（MoE）。

要理解MLA，得先搞懂注意力机制里的"键值缓存（KV Cache）“。当模型处理文本时，每个token都会生成"查询（Q）”“键（K）”“值（V）“三个向量：Q是当前token的"问题”，K是其他token的"标签”，V是对应的数据。模型会把之前token的K和V存进缓存，后面计算时直接调用，不用重复生成——这就像我们记笔记，不用每次复习都重新看书。

但问题来了：文本越长，缓存里的K和V就越多，内存消耗呈线性增长。早期的Multi-Head Attention（MHA）中，每个注意力头都有自己的K和V，相当于每个学生都要单独记一本笔记，内存压力极大。

后来出现的Grouped-Query Attention（GQA）做了优化：让多个注意力头共享一套K和V，好比几个学生共用一本笔记，内存消耗确实降了，但性能也跟着打了折扣。DeepSeek的团队发现，在BBH、MMLU等硬核测试中，GQA的得分比MHA低了不少。

MLA则走了另一条路：先压缩再存储。就像我们把照片存进手机前会先压缩，用的时候再解压，清晰度几乎不变但省了很多空间。具体来说，MLA会在把K和V存入缓存前，通过矩阵乘法将它们压缩到低维空间；推理时再投影回原尺寸使用。

这样做虽然多了一步"压缩解压"（额外的矩阵乘法），但内存节省效果显著。在DeepSeek-V2的实验中，同样是MoE模型，用MLA时每个token的KV缓存只有15.6K元素，而MHA需要110.6K——相当于前者用1张软盘的空间存下了后者需要10张软盘的内容。更惊喜的是，MLA的性能还超过了MHA，在MMLU测试中，大MoE模型用MLA能拿到59.0分，而MHA只有57.5分。

如果说MLA解决了"内存不够用"的问题，那MoE就解决了"大模型计算慢"的痛点。传统的"稠密模型"里，每个FeedForward模块（Transformer的核心组件之一）都会全程工作，相当于一个人既做饭又修车还看病，效率极低。

MoE的思路很简单：把一个全能的FeedForward模块，拆成多个专精于不同任务的"专家模块"。就像公司里有研发、市场、财务等不同部门，遇到不同问题时只调用对应部门的人。具体来说，DeepSeek-V3用多个小的FeedForward模块替代了原来的大模块，每个小模块都是一个"专家"；同时增加了一个"路由器"，负责根据当前token的内容，挑选出最合适的几个专家来处理。

DeepSeek-V3的MoE设计有两个亮点：

大量专家+少量激活：模型总共256个专家，但每个token只激活9个（1个共享专家+8个路由选择的专家）。这意味着虽然模型总共有6710亿参数，但每次推理只用到370亿——相当于一家有256个员工的公司，每次只安排9个人上班，人力成本骤降但业务能力不减。共享专家兜底：那个始终激活的"共享专家"专门处理常见问题，比如语法规则、常用词汇等。这样一来，其他专家就不用浪费精力学习通用知识，可以专注于更复杂的任务，比如逻辑推理、专业术语理解。DeepSpeedMoE的实验证明，加了共享专家后，模型性能能显著提升。

正是MLA和MoE的组合，让DeepSeek-V3实现了"大参数、高效率"的平衡，成为2025年初最受关注的开源模型之一。

和追求极致性能的DeepSeek-V3不同，艾伦人工智能研究所推出的OLMo 2并不在 benchmark排行榜的顶端。但它凭借透明的训练数据、代码和详细的技术报告，成为开发者眼中的"LLM设计Blueprint"。它的核心创新，在于对"归一化层"的巧思。

归一化层的作用很简单：把模型处理的数据"整理"成统一格式，避免出现"有的数据太大、有的太小"导致的训练混乱。就像我们整理文件时，会把同类文件放在同一个文件夹里，方便后续查找。

早期的Transformer用的是"Post-Norm"：在注意力模块和FeedForward模块计算完成后再做归一化。但这种方式有个问题：训练初期的数据波动很大，容易出现"梯度爆炸"（相当于车速突然飙到200码），必须小心翼翼地调整学习率才能稳住。

后来GPT-2改用了"Pre-Norm"：在计算前先做归一化，数据更规整，训练时不用太担心波动，就像开车前先检查车况，不容易出事故。所以现在大部分LLM都用Pre-Norm。

但OLMo 2偏要"反其道而行之"，重新捡起了Post-Norm——不过是改良版的：把归一化层放在残差连接（Skip Connection）的内部。残差连接就像大楼的应急通道，能让数据绕过复杂模块直接传递，避免"梯度消失"（车速突然降到0）。OLMo 2的设计相当于在应急通道里加了个"整理站"，既保留了Post-Norm的计算精度，又继承了Pre-Norm的训练稳定性。

实验显示，这种改良版Post-Norm的训练损失曲线非常平滑，几乎没有大的波动，而传统Pre-Norm会出现多次"损失尖峰"。

除了归一化层的位置，OLMo 2还加了个"小彩蛋"：QK-Norm。在注意力模块中，Q和K的乘积会生成"注意力分数"，用来判断不同token的关联程度。但如果Q和K的数值范围差异太大，注意力分数就会失真，好比相机焦距没对准，拍出来的照片模糊不清。

QK-Norm的解决方法很直接：在计算注意力分数前，用RMSNorm分别给Q和K做归一化。就像拍照前先校准焦距，确保每个细节都清晰。这种做法虽然简单，但能显著提升训练稳定性。更有意思的是，Gemma 3、GLM-4.5等后续模型都借鉴了这个设计，足以说明它的价值。

OLMo 2证明：有时候不需要颠覆式创新，把基础组件打磨到极致，同样能做出高效的模型。

Google的Gemma系列一直有点"低调"，但Gemma 3凭借独特的"滑动窗口注意力"，在效率上实现了弯道超车。它没有用MoE，却能把长文本处理的内存消耗降到极低，成为本地部署的热门选择——甚至能在Mac Mini上流畅运行270亿参数的版本。

传统的自注意力是"全局视野"：每个token都能看到序列里所有其他token，就像站在山顶看全景，看得全但消耗体力。但实际处理文本时，我们很少需要记住开头的每一个字——比如读一篇1000字的文章，看到第500字时，真正相关的往往是前几百字，而不是第1个字。

滑动窗口注意力的思路就是：让每个token只关注最近的N个token，就像我们走路时只看前方10米的路，既不影响前进，又节省了脑力。这个"N"就是"窗口大小"，Gemma 3把它设为1024，意味着每个token最多只看前面1024个token。

为了兼顾偶尔需要的"全局视野"，Gemma 3还设计了"混合比例"：每5个用滑动窗口的"局部层"，搭配1个用全局注意力的"全局层"。就像走路时偶尔抬头看一眼远方确认方向，其余时间专注脚下。这种5:1的比例是经过多次实验得出的——Gemma 2用1:1比例时，内存消耗比Gemma 3高3倍，而性能却没差多少。

实验数据显示，当上下文长度从1024增加到131072时，用滑动窗口的Gemma 3 KV缓存内存消耗只有全局注意力的1/5。更关键的是，这种优化对性能影响极小：在文本生成的"困惑度"（越低越好）测试中，滑动窗口和全局注意力的得分几乎重合。

Gemma 3在归一化层上也玩出了新花样：同时用Pre-Norm和Post-Norm。在注意力模块和FeedForward模块前后，都加了RMSNorm。就像出门前先检查行李，到目的地后再整理一遍，双重保障更稳妥。

这种设计看似冗余，但RMSNorm本身计算成本很低，额外的归一化不会增加太多负担，却能进一步稳定训练。Google的工程师发现，这种"混搭"方式能让模型在多语言处理上更出色——毕竟不同语言的语法差异大，双重归一化能让数据更规整。

针对移动设备，Google还推出了Gemma 3n，核心是两个优化：

Per-Layer Embedding（PLE）：把文本、音频、视觉的模态参数分开存储，只把当前用到的参数加载到内存。比如处理文本时，就不加载视觉参数，相当于出门只带必要的行李，而不是整箱搬走。MatFormer：把大模型切成多个独立的小模型，比如从270亿参数的模型里切出10亿、40亿的版本，按需使用。就像把大蛋糕切成小块，想吃多少拿多少，不用一次吃完。

这些设计让Gemma 3n能在手机上运行，为LLM的移动化铺平了道路。

Meta的Llama系列一直是开源LLM的"风向标"，2025年的Llama 4 Maverick也跟上了MoE的潮流，但它的设计比DeepSeek-V3更"保守"，体现了大厂对"稳定性"的偏好。

和DeepSeek-V3的"256个专家、激活9个"不同，Llama 4采用了"少而精"的策略：

专家数量更少：每个MoE模块只有128个专家，是DeepSeek的一半；专家规模更大：每个专家的隐藏层维度是8192，是DeepSeek的4倍；激活数量更少：每个token只激活2个专家（1个共享+1个路由选择），活跃参数只有170亿，比DeepSeek的370亿少了一半多。

这种设计的好处是"稳定易优化"： fewer experts意味着路由器的选择逻辑更简单，不容易出现"选不准专家"的问题； larger experts的参数更充足，处理复杂任务时更稳健。但代价是"灵活性稍差"——面对细分领域的任务时，不如多小专家的模型专精。

DeepSeek-V3除了前3层，其余都是MoE层；而Llama 4采用了"交替布局"：MoE层和稠密层每隔一层出现一次。就像公司里"灵活部门"和"固定部门"轮流值班，既保持了创新活力，又有稳定的基础保障。

Meta的工程师解释，这种布局能避免MoE的"稀疏不稳定性"：稠密层负责提取基础的语法、语义特征，MoE层负责处理高阶的推理、逻辑任务。如果一上来就用MoE，稀疏的专家选择可能会破坏基础特征的提取，导致训练失败。

此外，Llama 4还把上下文长度提升到了512k，是DeepSeek-V3的4倍。这得益于它对GQA的优化——虽然没用到MLA，但通过优化KV缓存的存储方式，依然实现了长文本处理能力。

阿里云的Qwen3系列堪称2025年的"六边形战士"：既有0.6B参数的"迷你模型"，又有2350亿参数的MoE模型；既在小模型赛道打败了Llama 3 1B，又在大模型领域跻身前列。它的成功，在于对"深度与宽度"、"稠密与稀疏"的精准平衡。

Qwen3 0.6B是目前最小的新一代开源模型之一，但性能却超过了Llama 3 1B。关键在于两者的架构差异：

Llama 3 1B是"宽而浅"：隐藏层维度8192（宽），但只有16层（浅），相当于一个矮胖子，胳膊粗但腿短；Qwen3 0.6B是"深而窄"：隐藏层维度3072（窄），但有28层（深），相当于一个瘦高个，腿长但胳膊细。

这种差异带来了明显的效率优势：Qwen3 0.6B的内存占用只有1.49GB，比Llama 3 1B的2.91GB少了一半；虽然生成速度稍慢（101 tokens/sec vs 170 tokens/sec），但对于本地学习、轻量部署来说完全够用。

Qwen3的稠密模型还有个细节：在注意力模块里加了"Q/K RMSNorm"，和OLMo 2的QK-Norm类似，能提升训练稳定性。这让小模型也能学到足够的知识，避免"参数少导致的能力不足"。

Qwen3的MoE版本（235B-A22B）和DeepSeek-V3架构很像，但有个大胆的改动：去掉了共享专家。每个token激活8个专家，没有那个"始终上班"的兜底专家。

为什么这么做？Qwen3的开发者解释，当专家数量从Qwen2.5-MoE的2个增加到8个后，共享专家的性能提升变得不明显，反而增加了推理的计算成本。就像公司里如果有8个能力很强的部门，就不需要再设一个"综合部"兜底，反而能减少沟通成本。

但这种设计也有风险：如果路由器偶尔选不准专家，可能会导致性能波动。不过Qwen3通过优化路由算法，把这个风险降到了最低——在CMMLU测试中，它拿到了62.5分，和DeepSeek-V3的得分基本持平。

Qwen3同时推出稠密和MoE版本，是非常聪明的商业策略：

稠密模型适合需要微调、硬件资源有限的场景，比如中小企业的客服机器人、个人开发者的实验项目；MoE模型适合大规模推理、追求高能力的场景，比如云服务商的API接口、企业级的数据分析工具。

这种"全路线覆盖"让Qwen3收获了不同需求的用户，成为2025年最受欢迎的开源模型系列之一。

在大家都在优化注意力、MoE的时候，Hugging Face推出的SmolLM3走了一条更激进的路：去掉了传统的位置编码。这个30亿参数的模型，用"NoPE"技术实现了更好的长文本泛化能力，成为小模型创新的代表。

传统的Transformer里，自注意力本身是"无序的"——如果把文本的token顺序打乱，模型依然会生成相同的注意力分数。为了让模型知道token的顺序，开发者们发明了"位置编码"：给每个位置的token加一个独特的向量，相当于给每个字贴上个"第1位""第2位"的标签。

后来的RoPE（旋转位置编码）更高级：通过旋转Q和K的向量来体现位置关系，就像用不同的角度给标签做标记，效果更好。但无论哪种方式，本质都是"手动给模型注入位置信息"。

SmolLM3用的NoPE（No Positional Embeddings），顾名思义就是"没有位置编码"。它靠什么让模型知道顺序呢？答案是"因果注意力掩码"。

因果掩码是LLM的基本组件，它强制每个token只能关注前面的token（不能看后面的），确保生成文本时不会"剧透"。SmolLM3的开发者发现，这种"只能看前面"的约束，本身就隐含了位置信息——token A能看到token B，而token B看不到token A，说明A在B前面。

就像排队时，你只能看到前面的人，不用别人告诉你位置，你也知道自己在队伍中间。模型通过训练，能逐渐"悟"出这种隐含的顺序关系。

NoPE的最大优势是"长文本泛化"：如果模型在训练时只见过100字的文本，用NoPE后能更好地处理400字、800字的长文本。在"Copy Addition"（复制加法）测试中，当任务长度超过训练时的范围，NoPE的准确率比RoPE高30%以上。

不过SmolLM3的团队也很谨慎：他们没有在所有层都用NoPE，而是每隔3层用一次（即每4层中有1层无位置编码）。因为大模型的位置信息需求更复杂，全用NoPE可能会导致性能下降。这种"局部尝试"的策略，既验证了NoPE的价值，又避免了风险。

2025年上半年，Moonshot AI推出的Kimi 2（1万亿参数）震惊了AI圈：它的性能和Google Gemini、OpenAI ChatGPT等闭源模型不相上下，成为开源模型的"天花板"。而它的架构核心，其实是"站在DeepSeek-V3的肩膀上做优化"。

Kimi 2的基础架构和DeepSeek-V3几乎一致：同样用MLA解决KV缓存问题，同样用MoE实现稀疏计算。但它做了两个关键调整：

更多专家：每个MoE模块的专家数量比DeepSeek-V3多，具体数字未公开，但从参数规模看，应该在300个以上；更少注意力头：MLA的注意力头数量比DeepSeek-V3少，减少了计算开销。

这种调整相当于把DeepSeek-V3的"专家团队"扩大了规模，同时精简了"信息查询部门"，让整体效率更高。Kimi 2的总参数达到1万亿，但活跃参数依然控制在合理范围，确保推理能正常进行。

Kimi 2的另一个亮点是用了"Muon优化器"，取代了传统的AdamW。优化器相当于模型的"教练"，负责调整参数让模型学得更快更好。

AdamW是目前最流行的优化器，但在万亿参数模型上会出现"收敛慢"的问题——就像运动员训练到后期，进步越来越慢。Muon优化器通过改进"动量更新"策略，能让模型在训练后期依然保持较快的进步速度。

实验显示，Kimi 2的训练损失曲线下降得非常平缓，几乎没有波动，最终损失值比用AdamW的模型低15%。这意味着模型学到了更多的知识，性能自然更强。

在闭源多年后，OpenAI在2025年推出了GPT-OSS系列（20B和120B参数），这是它自GPT-2以来首次发布开源模型。GPT-OSS没有太多颠覆式创新，但在细节上体现了OpenAI的工程积累，尤其是"宽vs深"的选择和"注意力sinks"的设计。

GPT-OSS和Qwen3的架构对比很有意思：

Qwen3是"深而窄"：48层，嵌入维度2048；GPT-OSS是"宽而浅"：24层，嵌入维度2880。

“宽"指的是嵌入维度大（模型每一层的"宽度”），"深"指的是层数多。这两种设计各有优劣：

宽模型：并行计算效率高，推理速度快（tokens/sec更高），但内存消耗大；深模型：特征提取更细致，灵活性强，能处理更复杂的任务，但训练更难稳定。

OpenAI选择"宽而浅"，显然是为了提升推理速度——GPT-OSS 20B的生成速度比同参数的深模型快40%。这符合开源模型的定位：大部分用户更在意部署后的速度，而非极致的复杂任务能力。

GPT-OSS还有个细节设计：“注意力sinks”（注意力 sink）。当处理超长篇文本（比如10万字）时，KV缓存会不断更新，早期的token信息会被覆盖，导致模型"忘记"开头的内容。

注意力sinks的思路是：在序列开头加一个虚拟的"锚点token"，让所有token都能关注到它。这个虚拟token会学习存储整个序列的关键信息，就像在书的开头夹了一张总结笔记，就算看到后面忘了细节，翻到笔记就能回忆起来。

GPT-OSS的巧妙之处在于，它的注意力sinks不是真实的token，而是"学习到的偏置向量"——不用修改输入文本，直接在模型内部加一个"虚拟锚点"。这种设计不影响用户使用，却能让模型在13万字的长文本处理中保持更好的连贯性。

2025年9月，Qwen团队推出的Qwen3-Next（80B-A3B），堪称上半年架构创新的"集大成者"。它融合了MoE优化、混合注意力、多token预测三大技术，实现了"小参数、长文本、高效率"的三重突破。

Qwen3-Next虽然只有800亿参数（是Qwen3 235B的1/3），但专家数量是前者的4倍，还重新加回了共享专家。这种"多小专家+共享兜底"的设计，是对DeepSeek-V3和Qwen3 MoE的融合优化：

更多专家：让模型的分工更细，能处理更多细分任务；共享专家：解决小参数模型的通用知识不足问题。

最终，Qwen3-Next的活跃参数只有30亿（仅占总参数的3.75%），内存消耗比Qwen3 235B低7倍，性能却没下降——在MMLU测试中拿到了59.2分，和后者持平。

Qwen3-Next最大的创新是"Gated DeltaNet + Gated Attention"混合机制，彻底解决了长文本处理的内存问题。它用3个DeltaNet层搭配1个Gated Attention层，比例3:1。

Gated Attention：基于GQA的改良版，加了输出门、零中心归一化等细节，稳定性更好，负责"精准提取关键信息"，就像放大镜看细节；Gated DeltaNet：一种全新的线性时间模块，不用KV缓存，内存消耗不随文本长度增加而增长，负责"快速处理整体内容"，就像广角镜看全景。

DeltaNet的原理和Mamba类似，但更轻量：它用"快速权重更新"替代注意力计算，只保留一个 tiny 的内存状态，更新速度极快。这种混合机制让Qwen3-Next的原生上下文长度达到262144（26万字），是Qwen3 235B的8倍。

传统的LLM每次只预测下一个token，就像打字时一个字一个字地敲。Qwen3-Next用的"多token预测（MTP）"，能一次预测后面4个token，就像用快捷键一次打出一个词，效率大幅提升。

MTP的实现很简单：在模型里加几个小的线性层，专门输出后面1-4个token的预测结果，训练时同时优化这4个结果的损失。推理时，虽然依然是一个token一个token地生成，但这些额外的预测层能辅助"投机解码"——先快速猜几个词，再验证对错，正确的就直接输出，错误的再重新算。

实验显示，Qwen3-Next的投机解码接受率超过80%，生成速度比Qwen3快2倍以上。

回顾2025年的主流LLM架构，我们能看到三个清晰的趋势：

注意力机制的进化路径非常明确：从MHA的"全量计算"，到GQA的"共享计算"，再到MLA的"压缩计算"和滑动窗口的"局部计算"。核心目标都是"用最少的计算和内存，获取足够的上下文信息"。

未来，很可能会出现"MLA+滑动窗口"的混合模式——既压缩KV缓存，又限制关注范围，进一步降低长文本处理的成本。

MoE已经从"可选组件"变成了大模型的"标配"，但设计差异越来越大：

专家规模：是"多小专家"还是"少大专家"，取决于模型的目标（灵活性vs稳定性）；共享专家：小参数模型更需要共享专家兜底，大参数模型可按需取舍；布局方式：是全MoE层还是和稠密层交替，影响训练稳定性和推理效率。

以前的小模型只是大模型的"缩减版"，2025年的小模型开始有了自己的创新：Qwen3 0.6B的"深而窄"设计、SmolLM3的NoPE技术，都证明小模型可以通过架构优化，实现"小参数、强能力"。

未来，小模型可能会更多聚焦于"垂直场景"——比如专门处理代码的小模型、专门做客服的小模型，通过架构定制实现比通用大模型更高的效率。

从DeepSeek-V3的MoE+MLA，到Gemma 3的滑动窗口，再到Qwen3-Next的混合注意力，2025年的LLM架构没有"一招鲜吃遍天"的完美方案。每个模型的设计，都对应着特定的场景需求：

追求极致性能选Kimi 2、DeepSeek-V3；本地轻量部署选Qwen3 0.6B、Gemma 3；长文本处理选Qwen3-Next、Llama 4；学习研究选OLMo 2、SmolLM3。

七年的发展证明，LLM架构的进化不是"推倒重来"，而是"在继承中创新"。Transformer的骨架依然坚固，但开发者们对细节的打磨，正在让这座大楼变得更高效、更灵活、更贴近实际需求。未来，随着硬件的进步和算法的突破，我们或许会看到更颠覆的设计，但至少在2025年，这些"精雕细琢"的架构创新，已经足够让LLM走进更多场景，改变我们的生活。

来源：码韵匠道

标签：模型 llm 架构 llm架构主流llm

本文地址：http://news.43b.com.cn/a/1349967.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!