Mamba-3惊现AI顶会ICLR 2026!CMU华人教授一作首代工作AI圈爆红

B站影视 日本电影 2025-10-14 17:55 1

摘要:最近那个Mamba-3刷屏了,但上来就说投ICLR 2026也太扯了,这是穿越了?

最近那个Mamba-3刷屏了,但上来就说投ICLR 2026也太扯了,这是穿越了?

论文明明是投今年的NeurIPS 2024。

这事儿的核心是CMU的Albert Gu和普林斯顿的Tri Dao,两位大佬带着他们的新作,又来敲打Transformer的霸权了。

Transformer强是强,但有个致命缺陷,就是记性越好,脑子越慢。

序列一长,计算量就指数级爆炸,又烧钱又费时。

这就是为什么长文本、长视频处理起来那么费劲。

Mamba系列就是想治这个病。

它不像Transformer那样每次都要回头看全文,而是像RNN一样,只看上一步的状态,往前滚动。

这样速度飞快,理论上没有长度限制。

初代Mamba-1证明了路子可行,但在GPU上跑起来不够丝滑,硬件利用率不高。

Mamba-2用了一个叫“对偶加速”的黑科技,把并行计算能力拉满了,速度飙升好几倍。

现在Mamba-3来了,带了三个大升级。

一个是状态更新更精细了,从“只看期末成绩”变成“综合考量期中和期末”,记忆误差更小。

第二个是引入了复数,让模型有了“节奏感”,能感知到序列里的周期性规律,这是以前的模型很难做到的。

第三个是搞了MIMO,把数据通道从单车道拓宽成高速公路,硬件效率直接拉满。

别以为这只是个学术研究。

两位作者Gu和Dao,背后还站着他们的创业公司Cartesia AI,刚拿了融资。

他们不光要发论文,更是在打造一套能绕开英伟达CUDA生态的软硬件方案。

所以这事的本质,已经不是单纯的算法之争了。

Mamba的目标,是让AI模型在更便宜、更多样的硬件上高效运行,从根本上动摇“Transformer+英伟达GPU”这个黄金组合的根基。

Mamba-3这篇论文,与其说是技术突破,不如说是一份商业战书。

Transformer杀手喊了这么多年,这次可能真的要来一条能绞杀巨头的“巨蟒”了。

来源:军迷一点号5

相关推荐