摘要:从2018年GPT架构诞生至今,七年时间里,大语言模型(LLM)已经从实验室走向了日常。当我们对比2019年的GPT-2和2025年的DeepSeek-V3、Llama 4时,会惊讶地发现:它们的核心骨架依然是Transformer,但"血肉"早已天翻地覆。
从2018年GPT架构诞生至今,七年时间里,大语言模型(LLM)已经从实验室走向了日常。当我们对比2019年的GPT-2和2025年的DeepSeek-V3、Llama 4时,会惊讶地发现:它们的核心骨架依然是Transformer,但"血肉"早已天翻地覆。
positional embeddings从绝对编码进化到旋转编码(RoPE),Multi-Head Attention逐渐被Grouped-Query Attention取代,GELU激活函数换成了更高效的SwiGLU。这些看似零碎的改进背后,藏着LLM开发者对"效率与性能平衡"的极致追求。2025年的主流LLM架构,更是在这条路上走出了诸多创新方向。本文将结合Sebastian Raschka的深度分析,用通俗的语言拆解这些模型的核心设计。
如果把LLM比作一座大楼,Transformer就是它的钢筋骨架。七年来,这个骨架从未被彻底推翻——毕竟自注意力机制(Self-Attention)解决了序列数据的长距离依赖问题后,还没有出现更优的替代方案。但大楼的"装修工艺"却一直在升级:
内存优化:早期模型处理长文本时,键值缓存(KV Cache)会快速占满内存,就像衣柜里堆满衣服后再也塞不下新的;现在的模型通过压缩、共享等技术,能让"衣柜"装下更多内容。计算效率:以前模型的每部分参数都会全程工作,好比全家所有人不管需不需要都要一起做饭;现在的模型会让"专业分工",只调用需要的"厨师",既省力气又出效率。训练稳定:早期模型训练时容易出现"损失波动",像开车时频繁急转弯;现在的归一化技术让训练过程更平稳,如同在高速路上匀速行驶。2025年的主流模型,无论是DeepSeek-V3的万亿参数规模,还是Qwen3 0.6B的"小而美"设计,都围绕这三个方向做文章。接下来,我们逐个拆解这些模型的核心创新。
2025年1月,基于DeepSeek-V3架构的推理模型R1一经发布就引发轰动。这个拥有6710亿参数的"巨无霸",不仅性能超过4050亿参数的Llama 3,推理时的资源消耗反而更低。它的秘诀在于两项核心技术:Multi-Head Latent Attention(MLA)和Mixture-of-Experts(MoE)。
要理解MLA,得先搞懂注意力机制里的"键值缓存(KV Cache)“。当模型处理文本时,每个token都会生成"查询(Q)”“键(K)”“值(V)“三个向量:Q是当前token的"问题”,K是其他token的"标签”,V是对应的数据。模型会把之前token的K和V存进缓存,后面计算时直接调用,不用重复生成——这就像我们记笔记,不用每次复习都重新看书。
但问题来了:文本越长,缓存里的K和V就越多,内存消耗呈线性增长。早期的Multi-Head Attention(MHA)中,每个注意力头都有自己的K和V,相当于每个学生都要单独记一本笔记,内存压力极大。
后来出现的Grouped-Query Attention(GQA)做了优化:让多个注意力头共享一套K和V,好比几个学生共用一本笔记,内存消耗确实降了,但性能也跟着打了折扣。DeepSeek的团队发现,在BBH、MMLU等硬核测试中,GQA的得分比MHA低了不少。
MLA则走了另一条路:先压缩再存储。就像我们把照片存进手机前会先压缩,用的时候再解压,清晰度几乎不变但省了很多空间。具体来说,MLA会在把K和V存入缓存前,通过矩阵乘法将它们压缩到低维空间;推理时再投影回原尺寸使用。
这样做虽然多了一步"压缩解压"(额外的矩阵乘法),但内存节省效果显著。在DeepSeek-V2的实验中,同样是MoE模型,用MLA时每个token的KV缓存只有15.6K元素,而MHA需要110.6K——相当于前者用1张软盘的空间存下了后者需要10张软盘的内容。更惊喜的是,MLA的性能还超过了MHA,在MMLU测试中,大MoE模型用MLA能拿到59.0分,而MHA只有57.5分。
如果说MLA解决了"内存不够用"的问题,那MoE就解决了"大模型计算慢"的痛点。传统的"稠密模型"里,每个FeedForward模块(Transformer的核心组件之一)都会全程工作,相当于一个人既做饭又修车还看病,效率极低。
MoE的思路很简单:把一个全能的FeedForward模块,拆成多个专精于不同任务的"专家模块"。就像公司里有研发、市场、财务等不同部门,遇到不同问题时只调用对应部门的人。具体来说,DeepSeek-V3用多个小的FeedForward模块替代了原来的大模块,每个小模块都是一个"专家";同时增加了一个"路由器",负责根据当前token的内容,挑选出最合适的几个专家来处理。
DeepSeek-V3的MoE设计有两个亮点:
大量专家+少量激活:模型总共256个专家,但每个token只激活9个(1个共享专家+8个路由选择的专家)。这意味着虽然模型总共有6710亿参数,但每次推理只用到370亿——相当于一家有256个员工的公司,每次只安排9个人上班,人力成本骤降但业务能力不减。共享专家兜底:那个始终激活的"共享专家"专门处理常见问题,比如语法规则、常用词汇等。这样一来,其他专家就不用浪费精力学习通用知识,可以专注于更复杂的任务,比如逻辑推理、专业术语理解。DeepSpeedMoE的实验证明,加了共享专家后,模型性能能显著提升。正是MLA和MoE的组合,让DeepSeek-V3实现了"大参数、高效率"的平衡,成为2025年初最受关注的开源模型之一。
和追求极致性能的DeepSeek-V3不同,艾伦人工智能研究所推出的OLMo 2并不在 benchmark排行榜的顶端。但它凭借透明的训练数据、代码和详细的技术报告,成为开发者眼中的"LLM设计Blueprint"。它的核心创新,在于对"归一化层"的巧思。
归一化层的作用很简单:把模型处理的数据"整理"成统一格式,避免出现"有的数据太大、有的太小"导致的训练混乱。就像我们整理文件时,会把同类文件放在同一个文件夹里,方便后续查找。
早期的Transformer用的是"Post-Norm":在注意力模块和FeedForward模块计算完成后再做归一化。但这种方式有个问题:训练初期的数据波动很大,容易出现"梯度爆炸"(相当于车速突然飙到200码),必须小心翼翼地调整学习率才能稳住。
后来GPT-2改用了"Pre-Norm":在计算前先做归一化,数据更规整,训练时不用太担心波动,就像开车前先检查车况,不容易出事故。所以现在大部分LLM都用Pre-Norm。
但OLMo 2偏要"反其道而行之",重新捡起了Post-Norm——不过是改良版的:把归一化层放在残差连接(Skip Connection)的内部。残差连接就像大楼的应急通道,能让数据绕过复杂模块直接传递,避免"梯度消失"(车速突然降到0)。OLMo 2的设计相当于在应急通道里加了个"整理站",既保留了Post-Norm的计算精度,又继承了Pre-Norm的训练稳定性。
实验显示,这种改良版Post-Norm的训练损失曲线非常平滑,几乎没有大的波动,而传统Pre-Norm会出现多次"损失尖峰"。
除了归一化层的位置,OLMo 2还加了个"小彩蛋":QK-Norm。在注意力模块中,Q和K的乘积会生成"注意力分数",用来判断不同token的关联程度。但如果Q和K的数值范围差异太大,注意力分数就会失真,好比相机焦距没对准,拍出来的照片模糊不清。
QK-Norm的解决方法很直接:在计算注意力分数前,用RMSNorm分别给Q和K做归一化。就像拍照前先校准焦距,确保每个细节都清晰。这种做法虽然简单,但能显著提升训练稳定性。更有意思的是,Gemma 3、GLM-4.5等后续模型都借鉴了这个设计,足以说明它的价值。
OLMo 2证明:有时候不需要颠覆式创新,把基础组件打磨到极致,同样能做出高效的模型。
Google的Gemma系列一直有点"低调",但Gemma 3凭借独特的"滑动窗口注意力",在效率上实现了弯道超车。它没有用MoE,却能把长文本处理的内存消耗降到极低,成为本地部署的热门选择——甚至能在Mac Mini上流畅运行270亿参数的版本。
传统的自注意力是"全局视野":每个token都能看到序列里所有其他token,就像站在山顶看全景,看得全但消耗体力。但实际处理文本时,我们很少需要记住开头的每一个字——比如读一篇1000字的文章,看到第500字时,真正相关的往往是前几百字,而不是第1个字。
滑动窗口注意力的思路就是:让每个token只关注最近的N个token,就像我们走路时只看前方10米的路,既不影响前进,又节省了脑力。这个"N"就是"窗口大小",Gemma 3把它设为1024,意味着每个token最多只看前面1024个token。
为了兼顾偶尔需要的"全局视野",Gemma 3还设计了"混合比例":每5个用滑动窗口的"局部层",搭配1个用全局注意力的"全局层"。就像走路时偶尔抬头看一眼远方确认方向,其余时间专注脚下。这种5:1的比例是经过多次实验得出的——Gemma 2用1:1比例时,内存消耗比Gemma 3高3倍,而性能却没差多少。
实验数据显示,当上下文长度从1024增加到131072时,用滑动窗口的Gemma 3 KV缓存内存消耗只有全局注意力的1/5。更关键的是,这种优化对性能影响极小:在文本生成的"困惑度"(越低越好)测试中,滑动窗口和全局注意力的得分几乎重合。
Gemma 3在归一化层上也玩出了新花样:同时用Pre-Norm和Post-Norm。在注意力模块和FeedForward模块前后,都加了RMSNorm。就像出门前先检查行李,到目的地后再整理一遍,双重保障更稳妥。
这种设计看似冗余,但RMSNorm本身计算成本很低,额外的归一化不会增加太多负担,却能进一步稳定训练。Google的工程师发现,这种"混搭"方式能让模型在多语言处理上更出色——毕竟不同语言的语法差异大,双重归一化能让数据更规整。
针对移动设备,Google还推出了Gemma 3n,核心是两个优化:
Per-Layer Embedding(PLE):把文本、音频、视觉的模态参数分开存储,只把当前用到的参数加载到内存。比如处理文本时,就不加载视觉参数,相当于出门只带必要的行李,而不是整箱搬走。MatFormer:把大模型切成多个独立的小模型,比如从270亿参数的模型里切出10亿、40亿的版本,按需使用。就像把大蛋糕切成小块,想吃多少拿多少,不用一次吃完。这些设计让Gemma 3n能在手机上运行,为LLM的移动化铺平了道路。
Meta的Llama系列一直是开源LLM的"风向标",2025年的Llama 4 Maverick也跟上了MoE的潮流,但它的设计比DeepSeek-V3更"保守",体现了大厂对"稳定性"的偏好。
和DeepSeek-V3的"256个专家、激活9个"不同,Llama 4采用了"少而精"的策略:
专家数量更少:每个MoE模块只有128个专家,是DeepSeek的一半;专家规模更大:每个专家的隐藏层维度是8192,是DeepSeek的4倍;激活数量更少:每个token只激活2个专家(1个共享+1个路由选择),活跃参数只有170亿,比DeepSeek的370亿少了一半多。这种设计的好处是"稳定易优化": fewer experts意味着路由器的选择逻辑更简单,不容易出现"选不准专家"的问题; larger experts的参数更充足,处理复杂任务时更稳健。但代价是"灵活性稍差"——面对细分领域的任务时,不如多小专家的模型专精。
DeepSeek-V3除了前3层,其余都是MoE层;而Llama 4采用了"交替布局":MoE层和稠密层每隔一层出现一次。就像公司里"灵活部门"和"固定部门"轮流值班,既保持了创新活力,又有稳定的基础保障。
Meta的工程师解释,这种布局能避免MoE的"稀疏不稳定性":稠密层负责提取基础的语法、语义特征,MoE层负责处理高阶的推理、逻辑任务。如果一上来就用MoE,稀疏的专家选择可能会破坏基础特征的提取,导致训练失败。
此外,Llama 4还把上下文长度提升到了512k,是DeepSeek-V3的4倍。这得益于它对GQA的优化——虽然没用到MLA,但通过优化KV缓存的存储方式,依然实现了长文本处理能力。
阿里云的Qwen3系列堪称2025年的"六边形战士":既有0.6B参数的"迷你模型",又有2350亿参数的MoE模型;既在小模型赛道打败了Llama 3 1B,又在大模型领域跻身前列。它的成功,在于对"深度与宽度"、"稠密与稀疏"的精准平衡。
Qwen3 0.6B是目前最小的新一代开源模型之一,但性能却超过了Llama 3 1B。关键在于两者的架构差异:
Llama 3 1B是"宽而浅":隐藏层维度8192(宽),但只有16层(浅),相当于一个矮胖子,胳膊粗但腿短;Qwen3 0.6B是"深而窄":隐藏层维度3072(窄),但有28层(深),相当于一个瘦高个,腿长但胳膊细。这种差异带来了明显的效率优势:Qwen3 0.6B的内存占用只有1.49GB,比Llama 3 1B的2.91GB少了一半;虽然生成速度稍慢(101 tokens/sec vs 170 tokens/sec),但对于本地学习、轻量部署来说完全够用。
Qwen3的稠密模型还有个细节:在注意力模块里加了"Q/K RMSNorm",和OLMo 2的QK-Norm类似,能提升训练稳定性。这让小模型也能学到足够的知识,避免"参数少导致的能力不足"。
Qwen3的MoE版本(235B-A22B)和DeepSeek-V3架构很像,但有个大胆的改动:去掉了共享专家。每个token激活8个专家,没有那个"始终上班"的兜底专家。
为什么这么做?Qwen3的开发者解释,当专家数量从Qwen2.5-MoE的2个增加到8个后,共享专家的性能提升变得不明显,反而增加了推理的计算成本。就像公司里如果有8个能力很强的部门,就不需要再设一个"综合部"兜底,反而能减少沟通成本。
但这种设计也有风险:如果路由器偶尔选不准专家,可能会导致性能波动。不过Qwen3通过优化路由算法,把这个风险降到了最低——在CMMLU测试中,它拿到了62.5分,和DeepSeek-V3的得分基本持平。
Qwen3同时推出稠密和MoE版本,是非常聪明的商业策略:
稠密模型适合需要微调、硬件资源有限的场景,比如中小企业的客服机器人、个人开发者的实验项目;MoE模型适合大规模推理、追求高能力的场景,比如云服务商的API接口、企业级的数据分析工具。这种"全路线覆盖"让Qwen3收获了不同需求的用户,成为2025年最受欢迎的开源模型系列之一。
在大家都在优化注意力、MoE的时候,Hugging Face推出的SmolLM3走了一条更激进的路:去掉了传统的位置编码。这个30亿参数的模型,用"NoPE"技术实现了更好的长文本泛化能力,成为小模型创新的代表。
传统的Transformer里,自注意力本身是"无序的"——如果把文本的token顺序打乱,模型依然会生成相同的注意力分数。为了让模型知道token的顺序,开发者们发明了"位置编码":给每个位置的token加一个独特的向量,相当于给每个字贴上个"第1位""第2位"的标签。
后来的RoPE(旋转位置编码)更高级:通过旋转Q和K的向量来体现位置关系,就像用不同的角度给标签做标记,效果更好。但无论哪种方式,本质都是"手动给模型注入位置信息"。
SmolLM3用的NoPE(No Positional Embeddings),顾名思义就是"没有位置编码"。它靠什么让模型知道顺序呢?答案是"因果注意力掩码"。
因果掩码是LLM的基本组件,它强制每个token只能关注前面的token(不能看后面的),确保生成文本时不会"剧透"。SmolLM3的开发者发现,这种"只能看前面"的约束,本身就隐含了位置信息——token A能看到token B,而token B看不到token A,说明A在B前面。
就像排队时,你只能看到前面的人,不用别人告诉你位置,你也知道自己在队伍中间。模型通过训练,能逐渐"悟"出这种隐含的顺序关系。
NoPE的最大优势是"长文本泛化":如果模型在训练时只见过100字的文本,用NoPE后能更好地处理400字、800字的长文本。在"Copy Addition"(复制加法)测试中,当任务长度超过训练时的范围,NoPE的准确率比RoPE高30%以上。
不过SmolLM3的团队也很谨慎:他们没有在所有层都用NoPE,而是每隔3层用一次(即每4层中有1层无位置编码)。因为大模型的位置信息需求更复杂,全用NoPE可能会导致性能下降。这种"局部尝试"的策略,既验证了NoPE的价值,又避免了风险。
2025年上半年,Moonshot AI推出的Kimi 2(1万亿参数)震惊了AI圈:它的性能和Google Gemini、OpenAI ChatGPT等闭源模型不相上下,成为开源模型的"天花板"。而它的架构核心,其实是"站在DeepSeek-V3的肩膀上做优化"。
Kimi 2的基础架构和DeepSeek-V3几乎一致:同样用MLA解决KV缓存问题,同样用MoE实现稀疏计算。但它做了两个关键调整:
更多专家:每个MoE模块的专家数量比DeepSeek-V3多,具体数字未公开,但从参数规模看,应该在300个以上;更少注意力头:MLA的注意力头数量比DeepSeek-V3少,减少了计算开销。这种调整相当于把DeepSeek-V3的"专家团队"扩大了规模,同时精简了"信息查询部门",让整体效率更高。Kimi 2的总参数达到1万亿,但活跃参数依然控制在合理范围,确保推理能正常进行。
Kimi 2的另一个亮点是用了"Muon优化器",取代了传统的AdamW。优化器相当于模型的"教练",负责调整参数让模型学得更快更好。
AdamW是目前最流行的优化器,但在万亿参数模型上会出现"收敛慢"的问题——就像运动员训练到后期,进步越来越慢。Muon优化器通过改进"动量更新"策略,能让模型在训练后期依然保持较快的进步速度。
实验显示,Kimi 2的训练损失曲线下降得非常平缓,几乎没有波动,最终损失值比用AdamW的模型低15%。这意味着模型学到了更多的知识,性能自然更强。
在闭源多年后,OpenAI在2025年推出了GPT-OSS系列(20B和120B参数),这是它自GPT-2以来首次发布开源模型。GPT-OSS没有太多颠覆式创新,但在细节上体现了OpenAI的工程积累,尤其是"宽vs深"的选择和"注意力sinks"的设计。
GPT-OSS和Qwen3的架构对比很有意思:
Qwen3是"深而窄":48层,嵌入维度2048;GPT-OSS是"宽而浅":24层,嵌入维度2880。“宽"指的是嵌入维度大(模型每一层的"宽度”),"深"指的是层数多。这两种设计各有优劣:
宽模型:并行计算效率高,推理速度快(tokens/sec更高),但内存消耗大;深模型:特征提取更细致,灵活性强,能处理更复杂的任务,但训练更难稳定。OpenAI选择"宽而浅",显然是为了提升推理速度——GPT-OSS 20B的生成速度比同参数的深模型快40%。这符合开源模型的定位:大部分用户更在意部署后的速度,而非极致的复杂任务能力。
GPT-OSS还有个细节设计:“注意力sinks”(注意力 sink)。当处理超长篇文本(比如10万字)时,KV缓存会不断更新,早期的token信息会被覆盖,导致模型"忘记"开头的内容。
注意力sinks的思路是:在序列开头加一个虚拟的"锚点token",让所有token都能关注到它。这个虚拟token会学习存储整个序列的关键信息,就像在书的开头夹了一张总结笔记,就算看到后面忘了细节,翻到笔记就能回忆起来。
GPT-OSS的巧妙之处在于,它的注意力sinks不是真实的token,而是"学习到的偏置向量"——不用修改输入文本,直接在模型内部加一个"虚拟锚点"。这种设计不影响用户使用,却能让模型在13万字的长文本处理中保持更好的连贯性。
2025年9月,Qwen团队推出的Qwen3-Next(80B-A3B),堪称上半年架构创新的"集大成者"。它融合了MoE优化、混合注意力、多token预测三大技术,实现了"小参数、长文本、高效率"的三重突破。
Qwen3-Next虽然只有800亿参数(是Qwen3 235B的1/3),但专家数量是前者的4倍,还重新加回了共享专家。这种"多小专家+共享兜底"的设计,是对DeepSeek-V3和Qwen3 MoE的融合优化:
更多专家:让模型的分工更细,能处理更多细分任务;共享专家:解决小参数模型的通用知识不足问题。最终,Qwen3-Next的活跃参数只有30亿(仅占总参数的3.75%),内存消耗比Qwen3 235B低7倍,性能却没下降——在MMLU测试中拿到了59.2分,和后者持平。
Qwen3-Next最大的创新是"Gated DeltaNet + Gated Attention"混合机制,彻底解决了长文本处理的内存问题。它用3个DeltaNet层搭配1个Gated Attention层,比例3:1。
Gated Attention:基于GQA的改良版,加了输出门、零中心归一化等细节,稳定性更好,负责"精准提取关键信息",就像放大镜看细节;Gated DeltaNet:一种全新的线性时间模块,不用KV缓存,内存消耗不随文本长度增加而增长,负责"快速处理整体内容",就像广角镜看全景。DeltaNet的原理和Mamba类似,但更轻量:它用"快速权重更新"替代注意力计算,只保留一个 tiny 的内存状态,更新速度极快。这种混合机制让Qwen3-Next的原生上下文长度达到262144(26万字),是Qwen3 235B的8倍。
传统的LLM每次只预测下一个token,就像打字时一个字一个字地敲。Qwen3-Next用的"多token预测(MTP)",能一次预测后面4个token,就像用快捷键一次打出一个词,效率大幅提升。
MTP的实现很简单:在模型里加几个小的线性层,专门输出后面1-4个token的预测结果,训练时同时优化这4个结果的损失。推理时,虽然依然是一个token一个token地生成,但这些额外的预测层能辅助"投机解码"——先快速猜几个词,再验证对错,正确的就直接输出,错误的再重新算。
实验显示,Qwen3-Next的投机解码接受率超过80%,生成速度比Qwen3快2倍以上。
回顾2025年的主流LLM架构,我们能看到三个清晰的趋势:
注意力机制的进化路径非常明确:从MHA的"全量计算",到GQA的"共享计算",再到MLA的"压缩计算"和滑动窗口的"局部计算"。核心目标都是"用最少的计算和内存,获取足够的上下文信息"。
未来,很可能会出现"MLA+滑动窗口"的混合模式——既压缩KV缓存,又限制关注范围,进一步降低长文本处理的成本。
MoE已经从"可选组件"变成了大模型的"标配",但设计差异越来越大:
专家规模:是"多小专家"还是"少大专家",取决于模型的目标(灵活性vs稳定性);共享专家:小参数模型更需要共享专家兜底,大参数模型可按需取舍;布局方式:是全MoE层还是和稠密层交替,影响训练稳定性和推理效率。以前的小模型只是大模型的"缩减版",2025年的小模型开始有了自己的创新:Qwen3 0.6B的"深而窄"设计、SmolLM3的NoPE技术,都证明小模型可以通过架构优化,实现"小参数、强能力"。
未来,小模型可能会更多聚焦于"垂直场景"——比如专门处理代码的小模型、专门做客服的小模型,通过架构定制实现比通用大模型更高的效率。
从DeepSeek-V3的MoE+MLA,到Gemma 3的滑动窗口,再到Qwen3-Next的混合注意力,2025年的LLM架构没有"一招鲜吃遍天"的完美方案。每个模型的设计,都对应着特定的场景需求:
追求极致性能选Kimi 2、DeepSeek-V3;本地轻量部署选Qwen3 0.6B、Gemma 3;长文本处理选Qwen3-Next、Llama 4;学习研究选OLMo 2、SmolLM3。七年的发展证明,LLM架构的进化不是"推倒重来",而是"在继承中创新"。Transformer的骨架依然坚固,但开发者们对细节的打磨,正在让这座大楼变得更高效、更灵活、更贴近实际需求。未来,随着硬件的进步和算法的突破,我们或许会看到更颠覆的设计,但至少在2025年,这些"精雕细琢"的架构创新,已经足够让LLM走进更多场景,改变我们的生活。
来源:码韵匠道