摘要:大家都注意到了吧,这个3.2-Exp跟上一版本(v3.1-terminus)相比,模型跑分不但不升,反而略有下降。
9月30日,DeepSeek发新版本了。
大家都注意到了吧,这个3.2-Exp跟上一版本(v3.1-terminus)相比,模型跑分不但不升,反而略有下降。
但是却挡不住一众MaaS服务商第一时间把这个模型上架了。
为啥,只因这个版本可以让推理成本暴降!
降成本的核心奥秘就是该版本采用了「DeepSeek 稀疏注意力机制」。
下面这个图很直观,3.1版本成本随着token长度是线性上升的,而3.2版则是陡升之后迅速折平,成本随着token长度变化极小。
尤其Decode,几乎是平的。
凭借这种巨大的成本优化,DeepSeek也有了降价的底气,官方API价格直接砍半。
那么,这个叫做“稀疏注意力机制”的成本优化利器,究竟是个啥?
在Transformer架构的大模型世界里,「注意力机制」是最重要的一环。
它就像人类大脑的“专注力”,决了定模型在处理一段话时,应该把脑力花在哪儿。
1、什么是注意力机制?
想象一下你是个售前,正在开Q3季度总结会,这场会有30个人发言(老板、产品经理、售前、研发、销售),会议讨论的核心议题是——如何提升Q4业绩。
但有些人可能是AD/HD患者,他没法专注在会议任务上,容易被外界刺激分散注意力,比如开着会,刷到微信群里有人闲聊,他也要回一句。
甚至看到窗外有美女走过,他就心驰神往,这就是缺乏”注意力“。
而正常人会全程关注所有与会者的发言,并找到跟会议主题相关的重点内容,写出会议总结,这就是“注意力”。
在Transformer大模型里,注意力机制也是类似的:每一个token在处理时都会去“关注”上下文中所有其他词,计算它们之间的关系,从而理解语义、推断含义。
2、传统注意力机制:人人都要听,太费力!
传统的注意力机制属于 “全量注意力(Dense Attention)”。
就像开会时,必须认真听每个人说的话,哪怕是坐在角落里点外卖的小王、正在咬耳朵闲聊的小李和小张,你也要分析他的话对你有没有用。
注意力是够集中了,但是太累、太慢、太费神。
放到大模型推理上,就意味着更多的算力消耗。
稀疏注意力:只听重要的人!
稀疏注意力(Sparse Attention)就机灵多了:
它让模型不再对所有词都关注,而是有选择地跳过不重要的词。
就好比开会的时候,你不需要记住每个人的每句话,于是你会有选择地听:重点关注老板、产品经理和研发骨干说的话,至于销售的画饼你完全不关注。
这样一来↓
不用每个词都计算关系,计算量大幅减少;显存、算力消耗显著降低;
效率自然就飙升。
DeepSeek的独家妙招:更聪明地「选人」
稀疏注意力机制不是DeepSeek首创的,但是很多早期的稀疏注意力方法只是盲目地跳过一部分计算,可能会漏掉重要信息。
就好比开会的时候,售前就是对销售们有成见,不管销售的发言有没有道理,一律”左耳进右耳出“,结果,可能错失了一个大单。
而DeepSeek这次的DSA就比较聪明了:它使用特殊的策略,让模型自己学会哪些词值得关注、哪些词可以忽略。
比如:
对长文本,优先关注关键词、句首、句尾等信息密集的部分;
对结构化数据,优先关注核心字段;
对代码、推理等任务,则关注逻辑节点之间的联系。
好比售前开会,听销售发言时,优先关注那些“历史业绩好的、“有个方案明天就要”次数少的、“客户已搞定”兑现多的。
这种「有策略的稀疏」,让模型既保留了理解力,又大大减少了无用计算。
正因为跳过了大量不必要的计算,DSA带来了三个立竿见影的好处:
训练更快:少算90%的“废话”,大模型可以更快迭代;
推理更便宜:同样的GPU,能跑更多请求、处理更长文本;
可扩展性更强:支持更长的上下文、更大的模型规模。
……
所以,优秀的售前,用“稀疏注意力机制”支持一部分靠谱销售,既能高效产出方案、完成技术支持工作,又不会过得很卷,还少背锅。
but,这种机制,对大模型有效,但对售前来讲,可操作性就有限了,就在昨天,还有一个售前兄弟吐槽说:
现在因为项目少,售前的话语权进一步被削弱了
公司要求→销售拿过来的机会,售前不能说不靠谱、研发不能说不靠谱,如果要说不靠谱、拒绝销售,必须开会讨论……
好吧,大家都加油。
关于DeepSeek稀疏注意力机制的详细正经解读,大家可以去看论文↓
最后㊗️大家双节快乐!
来源:特大号一点号