降本50倍?Grok-4-fast与英伟达算法的“谜之关联”

B站影视 日本电影 2025-09-27 15:07 1

摘要:2025年9月,马斯克旗下xAI推出的Grok-4-fast直接把有“路由器”加持的GPT5给比下去了,这事在AI圈直接炸了锅,大家一开始都觉得,肯定是马斯克又砸钱堆显卡了,毕竟之前AI要快,基本都是靠加算力硬堆。但后来扒了扒细节才发现,这事可能跟英伟达的算法

2025年9月,马斯克旗下xAI推出的Grok-4-fast直接把有“路由器”加持的GPT5给比下去了,这事在AI圈直接炸了锅,大家一开始都觉得,肯定是马斯克又砸钱堆显卡了,毕竟之前AI要快,基本都是靠加算力硬堆。但后来扒了扒细节才发现,这事可能跟英伟达的算法有关系,跟显卡还真没太大关系。

说实话,我一开始也默认是“堆卡胜利”,毕竟GPT5的算力底子摆在那,结果看了行业数据才知道,Grok-4-fast在MMLU-Pro测试里,生成速度比GPT5快了不是一点半点,而且定价还降了不少。这时候有人翻出英伟达一篇新论文,里面提的Jet-Nemotron模型,跟Grok-4-fast的表现简直像一个模子刻出来的。

Jet-Nemotron是英伟达搞的“混合结构”模型,其中2B参数的版本(Jet-Nemotron-2B)特别有意思,它跟Qwen3、Llama3.2这些顶尖开源模型比,性能没差多少,但推理速度直接拉高了53倍。就拿MMLU-Pro测试说,它不仅比Qwen3-1.7B-Base的准确率高,速度还快了47倍。更狠的是,遇上参数更大的模型,比如15B参数的DeepSeek-V3-Small,它的准确率也能超过。

本来想觉得“参数大才是王道”,后来发现英伟达这波刚好反过来,Grok-4-fast的定价也很能说明问题,它比xAI之前的模型便宜了42倍,而英伟达论文里刚好预测Jet-Nemotron能降成本20到50倍。这两个数凑在一起,很难不让人多想,Grok-4-fast是不是用了Jet-Nemotron的技术?

当然,也有人不买账,说Grok-4-fast降价就是烧钱抢市场。老实讲,我不太信这个说法。AI行业获客成本不低,真要烧钱,也不会烧得这么“有技术含量”。毕竟速度和准确率摆在那,不是光靠降价就能做出来的,得有真东西撑着才行。

聊完Grok和Jet-Nemotron的瓜,咱们得扒扒Jet-Nemotron背后真正的“黑科技”,PortNAS框架。这东西才是让LLM又快又便宜的关键,而且对中小厂商特别友好。

PortNAS框架的思路很简单,不从零开始训练模型,而是拿已经预训练好的全注意力模型当基础,把MLP权重冻住,只优化注意力机制。这么做的好处很明显,训练成本直接降了好几个量级,还能腾出精力研究模型结构。

它的操作分四步,每一步都挺有讲究,第一步是全注意力层放置,以前很多团队给模型所有层都用全注意力,其实特别浪费算力。英伟达团队就想,只留少量关键的全注意力层,既能保住复杂任务的准确率,又能删了冗余层提速度。他们搞了个超级网络,里面放两种注意力机制,再通过特征蒸馏训练子网络,最后用beamsearch找最优方案。实验数据也挺实在,只用2层全注意力,PortNAS的准确率就有49%,比均匀放置的40%高不少。

第二步是选线性注意力模块,英伟达测了6种当下最火的,最后GatedDeltaNet赢了。它厉害在两个点,一个是“数据依赖门控机制”,能根据输入决定重视新信息还是历史状态;另一个是“Delta规则”,只更新记忆里变化的部分,不浪费内存。说实话,这两点刚好戳中了很多LLM的痛点,要么记不住旧信息,要么内存用得太狠。

第三步是升级出JetBlock模块,本来GatedDeltaNet已经够好了,但英伟达还想再优化。以前的线性注意力模块用静态卷积核,没法根据输入调特征提取方式。JetBlock就加了个卷积核生成器,能动态出卷积核。测试下来,它在数学推理和检索任务上的准确率比GatedDeltaNet还高,速度还没降。

最后一步是硬件感知架构搜索,以前大家都拿参数量衡量模型效率,英伟达却发现,KV缓存大小才是影响长文本生成吞吐量的关键。他们就保持KV缓存不变,在key维度、value维度和注意力头数上做小范围搜索。结果很惊喜,参数量从1.7亿涨到1.84亿,数学准确率还从32.8%提到了34.8%,吞吐量没受影响。

这框架最良心的地方在于,任何厂商都能用上,不用重新训练模型。也就是说,中小厂不用砸大钱搞训练,也能让自己的LLM变快变便宜。而且Jet-Nemotron还打算开源,等法律审查过了就放代码和预训练模型,这对整个行业来说都是好事。

现在还有个没解开的谜,Grok-4-fast到底用没用力伟达的技术,xAI没回应,大家都是猜。但不管答案是什么,英伟达这篇论文的价值都不会变,它给LLM降本增效指了条明路,不是只有堆卡一条路可走。

另外,还得提一嘴,这篇论文的作者全是华人学者,第一作者顾煜贤是清华大学的博士生,研究方向就是提升LLM全生命周期的效率;通讯作者HanCai是英伟达的研究科学家,之前搞的ProxylessNAS、Once-for-all这些项目,在AI圈也很有名,论文引用超万次。说实话,华人学者在高效AI架构这块,真的越来越有话语权了,这挺让人自豪的。

总的来说,不管Grok-4-fast和英伟达有没有联手,Jet-Nemotron和PortNAS框架都是今年LLM领域的大突破。它们证明了,算法创新比单纯堆硬件更重要,也让更多中小厂商有机会参与到LLM的竞争里来。后续就看xAI会不会回应,还有Jet-Nemotron开源后,大家能玩出什么新花样了。

来源:冷秋月一点号

相关推荐