摘要:最近那个Mamba-3刷屏了,但上来就说投ICLR 2026也太扯了,这是穿越了?
最近那个Mamba-3刷屏了,但上来就说投ICLR 2026也太扯了,这是穿越了?
论文明明是投今年的NeurIPS 2024。
这事儿的核心是CMU的Albert Gu和普林斯顿的Tri Dao,两位大佬带着他们的新作,又来敲打Transformer的霸权了。
Transformer强是强,但有个致命缺陷,就是记性越好,脑子越慢。
序列一长,计算量就指数级爆炸,又烧钱又费时。
这就是为什么长文本、长视频处理起来那么费劲。
Mamba系列就是想治这个病。
它不像Transformer那样每次都要回头看全文,而是像RNN一样,只看上一步的状态,往前滚动。
这样速度飞快,理论上没有长度限制。
初代Mamba-1证明了路子可行,但在GPU上跑起来不够丝滑,硬件利用率不高。
Mamba-2用了一个叫“对偶加速”的黑科技,把并行计算能力拉满了,速度飙升好几倍。
现在Mamba-3来了,带了三个大升级。
一个是状态更新更精细了,从“只看期末成绩”变成“综合考量期中和期末”,记忆误差更小。
第二个是引入了复数,让模型有了“节奏感”,能感知到序列里的周期性规律,这是以前的模型很难做到的。
第三个是搞了MIMO,把数据通道从单车道拓宽成高速公路,硬件效率直接拉满。
别以为这只是个学术研究。
两位作者Gu和Dao,背后还站着他们的创业公司Cartesia AI,刚拿了融资。
他们不光要发论文,更是在打造一套能绕开英伟达CUDA生态的软硬件方案。
所以这事的本质,已经不是单纯的算法之争了。
Mamba的目标,是让AI模型在更便宜、更多样的硬件上高效运行,从根本上动摇“Transformer+英伟达GPU”这个黄金组合的根基。
Mamba-3这篇论文,与其说是技术突破,不如说是一份商业战书。
Transformer杀手喊了这么多年,这次可能真的要来一条能绞杀巨头的“巨蟒”了。
来源:军迷一点号5