导致DeepSeek价格暴降，「稀疏注意力机制」，到底是个啥？

摘要：大家都注意到了吧，这个3.2-Exp跟上一版本（v3.1-terminus）相比，模型跑分不但不升，反而略有下降。

9月30日，DeepSeek发新版本了。

大家都注意到了吧，这个3.2-Exp跟上一版本（v3.1-terminus）相比，模型跑分不但不升，反而略有下降。

但是却挡不住一众MaaS服务商第一时间把这个模型上架了。

为啥，只因这个版本可以让推理成本暴降！

降成本的核心奥秘就是该版本采用了「DeepSeek 稀疏注意力机制」。

下面这个图很直观，3.1版本成本随着token长度是线性上升的，而3.2版则是陡升之后迅速折平，成本随着token长度变化极小。

尤其Decode，几乎是平的。

凭借这种巨大的成本优化，DeepSeek也有了降价的底气，官方API价格直接砍半。

那么，这个叫做“稀疏注意力机制”的成本优化利器，究竟是个啥？

在Transformer架构的大模型世界里，「注意力机制」是最重要的一环。

它就像人类大脑的“专注力”，决了定模型在处理一段话时，应该把脑力花在哪儿。

1、什么是注意力机制？

想象一下你是个售前，正在开Q3季度总结会，这场会有30个人发言（老板、产品经理、售前、研发、销售），会议讨论的核心议题是——如何提升Q4业绩。

但有些人可能是AD/HD患者，他没法专注在会议任务上，容易被外界刺激分散注意力，比如开着会，刷到微信群里有人闲聊，他也要回一句。

甚至看到窗外有美女走过，他就心驰神往，这就是缺乏”注意力“。

而正常人会全程关注所有与会者的发言，并找到跟会议主题相关的重点内容，写出会议总结，这就是“注意力”。

在Transformer大模型里，注意力机制也是类似的：每一个token在处理时都会去“关注”上下文中所有其他词，计算它们之间的关系，从而理解语义、推断含义。

2、传统注意力机制：人人都要听，太费力！

传统的注意力机制属于 “全量注意力（Dense Attention）”。

就像开会时，必须认真听每个人说的话，哪怕是坐在角落里点外卖的小王、正在咬耳朵闲聊的小李和小张，你也要分析他的话对你有没有用。

注意力是够集中了，但是太累、太慢、太费神。

放到大模型推理上，就意味着更多的算力消耗。

稀疏注意力：只听重要的人！

稀疏注意力（Sparse Attention）就机灵多了：

它让模型不再对所有词都关注，而是有选择地跳过不重要的词。

就好比开会的时候，你不需要记住每个人的每句话，于是你会有选择地听：重点关注老板、产品经理和研发骨干说的话，至于销售的画饼你完全不关注。

这样一来↓

不用每个词都计算关系，计算量大幅减少；显存、算力消耗显著降低；

效率自然就飙升。

DeepSeek的独家妙招：更聪明地「选人」

稀疏注意力机制不是DeepSeek首创的，但是很多早期的稀疏注意力方法只是盲目地跳过一部分计算，可能会漏掉重要信息。

就好比开会的时候，售前就是对销售们有成见，不管销售的发言有没有道理，一律”左耳进右耳出“，结果，可能错失了一个大单。

而DeepSeek这次的DSA就比较聪明了：它使用特殊的策略，让模型自己学会哪些词值得关注、哪些词可以忽略。

比如：

对长文本，优先关注关键词、句首、句尾等信息密集的部分；

对结构化数据，优先关注核心字段；

对代码、推理等任务，则关注逻辑节点之间的联系。

好比售前开会，听销售发言时，优先关注那些“历史业绩好的、“有个方案明天就要”次数少的、“客户已搞定”兑现多的。

这种「有策略的稀疏」，让模型既保留了理解力，又大大减少了无用计算。

正因为跳过了大量不必要的计算，DSA带来了三个立竿见影的好处：

训练更快：少算90%的“废话”，大模型可以更快迭代；

推理更便宜：同样的GPU，能跑更多请求、处理更长文本；

可扩展性更强：支持更长的上下文、更大的模型规模。

……

所以，优秀的售前，用“稀疏注意力机制”支持一部分靠谱销售，既能高效产出方案、完成技术支持工作，又不会过得很卷，还少背锅。

but，这种机制，对大模型有效，但对售前来讲，可操作性就有限了，就在昨天，还有一个售前兄弟吐槽说：

现在因为项目少，售前的话语权进一步被削弱了

公司要求→销售拿过来的机会，售前不能说不靠谱、研发不能说不靠谱，如果要说不靠谱、拒绝销售，必须开会讨论……

好吧，大家都加油。

关于DeepSeek稀疏注意力机制的详细正经解读，大家可以去看论文↓

最后㊗️大家双节快乐！

来源：特大号一点号

标签： deepseek dsa transf deepseek价格

本文地址：http://news.43b.com.cn/a/1501316.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐