摘要:阿里通义团队正式发布并开源了下一代基础模型架构Qwen3-Next,以及基于这个架构的Qwen3-Next-80B-A3B系列模型。这玩意儿有多炸裂呢?一个总参数量高达800亿的巨无霸模型,跑起来的时候居然只激活区区30亿参数,性能却能直接对标自家2350亿参
阿里通义团队正式发布并开源了下一代基础模型架构Qwen3-Next,以及基于这个架构的Qwen3-Next-80B-A3B系列模型。这玩意儿有多炸裂呢?一个总参数量高达800亿的巨无霸模型,跑起来的时候居然只激活区区30亿参数,性能却能直接对标自家2350亿参数的旗舰版大哥,甚至在好几个硬核测试里,把谷歌的Gemini-2.5-Flash-Thinking给甩在了身后。
Qwen3-Next模型的训练成本,比起自家的密集模型Qwen3-32B,直接打了个骨折,大降超过90%。而在处理长文本的推理上,吞吐量更是提升了10倍不止,给未来大模型的“省钱”和“加速”立下了一个全新的标杆。
这波技术操作,属实是把牙膏挤爆了
Qwen3-Next这套架构,可以说是当前大模型设计的“天花板”之一了,它的牛X之处主要体现在四个“黑科技”上:混合注意力机制、高稀疏MoE (混合专家)结构、训练稳定性优化以及多Token预测机制。正是这四大金刚,合力撑起了Qwen3-Next那变态的效率。
传统的Transformer架构处理长文章时,计算量会暴增,跟滚雪球似的,脑子转不过来。后来有人搞了线性注意力,处理长文是快了,但记忆力又不太行,容易忘事。Qwen3-Next就想了个绝妙的点子:我全都要!它把Gated DeltaNet(门控Delta网络)和Gated Attention(门控注意力)这两种武功给融合了,既要速度,也要精度。
Gated DeltaNet在学习上下文方面,比那些常见的滑动窗口注意力或者Mamba2都要强。最后他们找到了一个黄金比例——75%的层用Gated DeltaNet负责效率,剩下的25%保留标准注意力负责精准打击,效果直接碾压了任何单一架构。而且,在标准注意力的部分,他们还加了不少buff,比如输出门控、把注意力头维度从128扩展到256、只给部分位置加旋转编码等等,每一个细节都抠到了极致,就是为了在处理超长上下文时,既快又稳。
MoE (混合专家)现在已经是大模型的标配了,但Qwen3-Next直接把它玩成了极限运动。总参数800亿,但每次干活只激活大约30亿,激活率低到了令人发指的3.7%。
总共有512个专家待命,每次推理激活10个路由专家外加1个共享专家。对比之前的Qwen3系列,专家库的容量扩大了4倍,但干活的人数却没怎么变。通义团队的实验也证明了,只要负载均衡做得好,专家总数越多,模型训练的效果就越稳定。这给后面设计超大规模稀疏模型趟出了一条路。
然后是“训练稳定性优化”。Qwen3-Next在这方面下了苦功夫,搞了零中心化和权重衰减LayerNorm这些技术,确保模型在几万亿数据里摸爬滚打时不会跑偏。他们发现,注意力输出门控这个小设计,能有效避免模型内部数值爆炸。再加上改进版的Zero-Centered RMSNorm,以及给MoE路由参数做初始化归一化,确保每个专家在训练初期都能雨露均沾。
最后是“多Token预测机制”,这玩意儿是提升推理速度的大杀器。它不仅让模型本身更强了,还给一种叫Speculative Decoding(推测解码)的技术提供了神助攻。
技术大V karminski-牙医在X平台上分析得特别到位,他说:“说实话这个架构我乍一看立刻想到了——推测性解码…都是先用精简架构进行快速生成,然后用复杂但是精度高的架构提升生成质量…这种设计让模型在保持80B总参数的同时只激活3B参数,实现了与传统大模型相当的性能,同时获得了10倍的推理加速,特别是在处理32K以上长上下文时有很大优势。”
不服?直接上数据battle!
Qwen3-Next最让人闭嘴惊艳的,就是它那“小身材、大能量”的性能表现。一个只激活3B参数的模型,在各种考场上不仅把同级别的对手甩在身后,甚至跟那些参数量大好几倍的“巨无霸”掰手腕也不落下风。
咱们先看它是怎么“吊打”谷歌的Gemini-2.5-Flash-Thinking的。在复杂的推理任务上,Qwen3-Next-80B-A3B-Thinking这个“思考模型”简直杀疯了。它在多个基准测试里是全面超越。
就看AIME25这个数学推理考试,Qwen3-Next拿了87.8分,把Gemini-2.5-Flash-Thinking的72.0分远远甩开,而且离自家2350亿参数的大哥(92.3分)也就一步之遥。
再看综合能力,Qwen3-Next-80B-A3B-Instruct这个“指令模型”同样不虚。它的表现和参数规模更大的Qwen3-235B旗舰版不相上下:
长文本处理,是Qwen3-Next的拿手好戏。模型原生支持262K的上下文,官方更是宣称能扩展到大约101万个token。在RULER长文本评测中,它的表现甚至超过了层数更多的235B旗舰模型。这都得归功于那个精妙的混合注意力机制,让它在信息的汪洋大海里也能游刃有余。
成本打骨折,速度坐火箭
Qwen3-Next在训练和推理两端,都把“降本增效”这四个字演绎到了极致。
Qwen3-Next只用了Qwen3预训练语料库里一个15T tokens的子集进行训练,消耗的GPU算力还不到Qwen3-30A-3B的80%;而跟Qwen3-32B这个密集模型比,更是只用了人家9.3%的计算资源,就获得了更强的性能。
再看推理效率,也就是模型干活的速度。Qwen3-Next同样快得飞起。在处理数据的前置阶段(prefill),当上下文长度达到4k tokens时,它的吞吐量是Qwen3-32B的将近7倍;一旦长度超过32k,这个差距更是拉大到10倍以上。而在生成内容的解码阶段(decode),这个优势依然巨大,长下文场景同样能保持10倍以上的吞吐优势。
看这张表就更直观了:
这种速度的提升,对于实际应用来说就是真金白银。响应更快,成本更低,意味着同样的服务器能服务更多的用户,AI应用落地也就更顺畅了。
大佬和码农都坐不住了
Qwen3-Next的发布,整个AI圈都荡起了涟漪。
以前,提升模型性能最简单粗暴的办法就是把模型做大,但这条路越走越窄,算力成本和能源消耗都快撑不住了。Qwen3-Next用架构创新走了另一条路。华尔街见闻的报道也指出了这一点,认为它通过线性注意力和高稀疏MoE等设计,实现了重大突破。
开源社区的反响也很热烈。Hugging Face的最新数据显示,通义千问Qwen的衍生模型已经超过了17万个,稳坐全球第一开源模型的宝座。这群众基础无敌。Qwen3-Next发布,迅速荣登趋势榜前十。
技术专家们更是从专业的角度给出了高度评价。Qwen3-Next那个75% Gated DeltaNet加25% Gated Attention的混合比例,是大量实验后找到的“甜点区”,是效率和性能的最佳平衡点。
我们再深入到数字里,看看这些创新到底体现在哪里。
再和其他模型横向对比一下,优势就更明显了:
训练数据和资源的对比也同样惊人:
少吃一半的“粮”(训练数据),只用不到十分之一的“电”(计算资源),却长得更壮,跑得更快。
参考资料:
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
来源:算泥社区