Mamba 架构上顶会ICLR 2026，AI大脑核心Transformer的王座还能坐稳吗？

摘要：Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍，计算量就要翻四倍。同时，它的内存占用也随着序列长度线性增长。用它实现AGI，能源和算力需求不可想象。

Transformer统治了AI大模型领域。有人认为，实现AGI，Transformer就够了！

还有人认为，还需要几次底层架构革新。例如，华为《智能世界-2035》报告里就这样说。

随着模型训练、部署规模和计算需求的爆炸式增长，我们发现，算力和能源需求就像无底洞，那怎么才能让AI既聪明，又便宜，还能跑得快？

Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍，计算量就要翻四倍。同时，它的内存占用也随着序列长度线性增长。用它实现AGI，能源和算力需求不可想象。

学术界和工业界都在寻找出路。

Mamba登上了舞台。Mamba-3目前正在顶会ICLR 2026接受双盲评审。

它没有选择在Transformer的框架上修修补补，而是另辟蹊径，从一个更古老也更基础的理论——状态空间模型（SSM）里找到了灵感。

Mamba-3的故事，本质上是一个关于效率和智慧的权衡与进化。它从推理效率这个最实际、最要命的问题出发，引入了三个改进：一个更具表现力的递归方式，一套更聪明的状态更新规则，以及一个更能榨干硬件性能的多输入多输出（MIMO）架构。

Mamba-3到底耍了什么新花样，它又如何与Transformer掰手腕呢？

万丈高楼平地起

要理解Mamba-3的精妙，先聊聊什么是状态空间模型（SSM）。

这个概念最早并不是为自然语言处理（NLP）准备的，它的老本行是预测连续变化的系统，比如电路里的信号，气象云图的变幻，或者一个运动物体的飞行轨迹。从数学和概念上讲，它和循环神经网络（RNN）是近亲，都是那种一步一步处理序列，并保留一个‘记忆’来影响下一步决策的模型。

顾名思义，SSM的核心是‘状态空间’。你可以把它想象成一个描述系统当前所有状况的快照，里面包含了所有关键变量。SSM的工作就是接收一个输入序列x(t)，把它映射到一个看不见的潜在状态h(t)，这个h(t)就好像是RNN里的隐藏状态，然后根据这个状态预测出输出y(t)。

所有SSM都围绕着两个核心方程运转：

状态方程：h'(t)=A*h(t)+B*x(t)输出方程：y(t)=C*h(t)+D*x(t)

这里的A, B, C, D四个参数，通常是权重矩阵，它们定义了系统的动态。在控制理论这些传统领域，这些矩阵是固定的，代表一个已知的系统。而在深度学习里，它们变成了需要通过训练来优化的参数，由神经网络的可学习权重来表示。

SSM的经典形态是为连续信号设计的，但我们处理的文本、图片、声音，在计算机里都是离散的数据。这就需要一个‘离散化’的步骤。

你可以把离散化想象成对一个连续流动的信号进行周期性采样。这个过程引入了一个新参数，叫做步长（Δ），它决定了我们多久采一次样。离散化的方法有很多种，但包括Mamba在内的大多数现代SSM都用了一种简单的方式，叫零阶保持（ZOH）。

经过离散化，SSM就能像RNN一样处理序列数据了。

但是，早期的离散SSM并不实用，因为它继承了RNN的一些老毛病，比如训练效率低，而且记性不好，很难捕捉序列里距离很远的两个元素之间的关系，也就是所谓的‘长距离依赖’问题。

转机出现在2021年，一个叫Albert Gu的研究者和他的同事们提出了结构化状态空间序列模型，简称S4。这个工作为后来的Mamba铺平了道路。

S4模型做了两件大事。

第一是通过卷积实现高效训练。离散SSM虽然在推理时像RNN一样快，但训练起来却奇慢无比。S4的作者们发现，由于SSM只涉及线性的加法和乘法运算，这一连串的递归操作可以展开成一个一维的卷积核。这个卷积核可以直接把输入序列x一步到位地映射到输出y。而卷积运算，可以使用一种叫‘快速傅里叶变换’的算法来高效计算。

这就带来了一个绝妙的好处：在训练时，当整个输入序列都已知的情况下，S4可以像一个卷积神经网络（CNN）一样，并行地、高效地进行计算；而在推理时，当我们需要一个一个地生成token时，它又可以变回RNN的形态，享受极快的速度和极低的内存占用。两全其美。

第二是通过结构化矩阵解决长记性问题。为了让SSM能够记住更久远的信息，S4没有像常规的机器学习模型那样随机初始化它的权重矩阵A和B，而是采用了一种叫HiPPO的技术，从特殊的正交多项式（比如勒让德多项式）推导出矩阵的结构。这种特殊的初始化方式，就像给模型装上了一个记忆增强插件，使得它在处理长序列时的性能飙升。

S4的后续变种，比如DSS，S5，以及我们今天的主角Mamba系列，虽然在具体的初始化方案上有所不同，但都保留了HiPPO的核心思想：给矩阵A和B施加某种结构，通常是对角结构，来保证模型能够稳定地更新状态，并记住长期的依赖关系。

Mamba的进化之路

2023年，Tri Dao和Albert Gu（又是他）在论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了Mamba架构。这是第一个在语言建模上，能与Transformer正面抗衡的架构。

Mamba的核心创新有两个。

第一个叫‘选择性状态空间模型’。它给传统的SSM装上了一个‘选择’开关，让模型能够根据当前输入的重要性，动态地决定要记住哪些历史信息，忽略哪些历史信息。这个能力，以前被认为是Transformer自注意力机制的专利。

第二个叫‘硬件感知并行扫描’。这是一个非常工程化的优化，它专门针对现代图形处理单元（GPU）的计算特性，设计了一种高效的算法来处理SSM的递归计算，最大化地利用硬件资源。

一年后，还是这两位作者，又发表了一篇论文，进一步探讨了SSM和Transformer之间的深层联系，并提出了一个更快更强的改进版，Mamba-2。

Mamba-2发现一大类SSM的计算过程，可以等价地表示为一种带掩码的矩阵乘法。这个发现，使得Mamba-2可以利用矩阵乘法的高效实现，训练速度比Mamba-1提升了50%。同时，它还支持了更大的状态维度，让模型能够处理更复杂的任务，尤其是在长序列上。

现在，故事发展到了Mamba-3。

Mamba-3是在Mamba-2的基础上，从推理效率这个角度出发，做出的又一次进化。它带来了三个核心的方法论改进。

第一个叫‘梯形离散化’。它用一种更精确的数学方法（梯形法则）来替代之前Mamba-2里相对粗糙的方法（欧拉法则），来完成从连续信号到离散序列的转换。这个改进让模型的递归更新变得更具表现力。

第二个叫‘复杂状态空间模型’。它通过引入复数来定义SSM，使得模型的状态更新能力大大增强，解决了许多线性模型在处理一些需要精确状态跟踪的任务（比如数数的奇偶性）时能力不足的问题。

第三个叫‘多输入多输出SSM’。这是一个纯粹为了提升解码速度和硬件效率的设计。它将原本基于外积的状态更新，改为了基于矩阵乘法的更新，极大地提高了计算的‘算术强度’，让GPU不再‘挨饿’。

Mamba-3的新花样

更精确的离散化：梯形法则

结构化SSM在理论上被定义为一个连续时间系统，但实际处理的数据都是离散的。从连续到离散的转换，也就是离散化，是关键一步。

Mamba-2用的是欧拉法则，你可以把它想象成用一个矩形的面积去近似一段曲线下的面积，它只考虑了区间的终点值。这种方法的误差是O(Δt²)，虽然简单，但不够精确。

Mamba-3换用了一种更高级的方法：广义梯形法则。它不再是简单地用矩形去近似，而是用一个梯形，同时考虑了区间的起点和终点，用一个数据相关的凸组合来连接它们。这种方法的误差降低到了O(Δt³)，精度整整提高了一个数量级。

Mamba-3在进行状态更新时，不仅考虑了当前时间步的输入，还回看了一眼上一个时间步的输入。这个小小的‘回眸’，让模型对序列动态的捕捉能力变得更加细腻和强大。

这个改进不仅提升了模型的表现力，还使得Mamba-3不再需要之前很多线性模型都依赖的一个组件——短因果卷积。这让整个模型架构变得更加简洁和统一。

更聪明的状态更新：复数与旋转

现代SSM为了追求效率，一直在简化其核心的状态转移矩阵。S4模型用的是复杂的‘正规加低秩’矩阵，Mamba把它简化为实数对角矩阵，Mamba-2更是简化到了一个标量。这些简化在语言建模任务上没有带来明显的性能下降，但也削弱了模型在一些简单状态跟踪任务上的能力。

比如，判断一个二进制序列里‘1’的个数是奇数还是偶数（奇偶性任务）。这个任务对于单层的LSTM（长短期记忆网络）来说是小菜一碟，但对于状态转移矩阵只有实数特征值的Mamba-2来说，却难如登天。

原因在于，实数特征值只能表示状态的‘伸缩’和‘翻转’，无法表示‘旋转’。而像奇偶性这样的任务，其内在的状态转换恰恰是周期性的，就像一个开关在‘开’和‘关’之间切换，这在数学上最自然的表示就是旋转。

Mamba-3为了恢复这种能力，引入了复数。

它证明了，一个复数值的SSM，在离散化后，等价于一个状态维度加倍的实数值SSM，其状态转移矩阵由一系列2x2的旋转矩阵块构成。

更进一步，它还证明了，这种旋转操作可以被等效地‘吸收’到输入和输出的投影矩阵B和C中。这最终导向了一个惊人的结论：使用复数SSM，等价于在一个普通的、基于标量转移的SSM的输入（B）和输出（C）上，应用了一种数据相关的旋转位置嵌入（RoPE）。

RoPE在很多大模型（比如Llama）里都在用，它通过给词向量注入绝对或相对的位置信息来帮助模型理解语序。Mamba-3在这里做的，是把RoPE从一个‘数据无关’的、固定的位置编码，变成了一个‘数据相关’的、动态的状态旋转器。

这个被作者称为‘RoPE技巧’的实现，让Mamba-3用极小的计算开销，就获得了强大的状态跟踪能力，能够轻松解决奇偶性、模运算等Mamba-2无法完成的任务。

更极致的硬件效率：从外积到矩阵乘法

在自回归生成（也就是一个词一个词地往外蹦）的场景下，性能通常用每秒生成的token数（TPS）来衡量。在这个指标上，像Mamba这样的模型，因为只有一个固定大小的隐藏状态，而不需要像Transformer那样维护一个随序列长度线性增长的KV缓存，所以具有天然的优势。

但是，TPS这个指标没有考虑到硬件效率。一个更底层的指标是‘算术强度’，它定义为一次操作的浮点运算次数（FLOPs）与为此移动的数据字节数的比值。

现代的GPU，就像一个超级强大的计算工厂，它的计算能力（ops）远远超过了它的数据搬运能力（byte）。如果算术强度太低，GPU就会把大量时间浪费在等待数据从内存里搬运过来的路上，而不是在真正地进行计算。这种情况，我们称之为‘内存受限’。

Mamba-2的状态更新是一个外积操作。它的算术强度是一个常数，远低于现代GPU的理想值。这意味着，在解码时，Mamba-2并不能充分发挥出GPU的威力。

Mamba-3做了一个看似简单却异常有效的改动。它把状态更新从外积改成了矩阵乘法。

这在信号处理的语境里，恰好对应着从单输入单输出（SISO）系统到多输入多输出（MIMO）系统的泛化。

在MIMO公式下，算术强度与一个新引入的秩r成正比。通过调整r的大小，我们就可以灵活地提高算术强度，将解码过程从‘内存受限’推向‘计算受限’，从而更充分地利用硬件，获得更高的TPS。这个过程甚至不增加推理时的内存占用（状态H的大小不变）。

这三板斧，共同构成了Mamba-3的核心混合器（Mixer）原语。整个Mamba-3的架构也进行了一些调整，交替使用Mamba-3块和SwiGLU块，并采用了预归一化。

架构性能大比拼

在语言建模性能上，论文作者们使用FineWeb-Edu数据集的1000亿个token，对Mamba-3以及Transformer、Gated DeltaNet和Mamba-2等基线模型，在180M、440M、820M和1.5B四种不同参数规模上进行了预训练。

结果显示，在所有模型规模上，Mamba-3在各种下游任务上的表现都全面领先。

在检索能力方面，也就是从长文本中精确查找信息的能力，Transformer由于其可以无损回顾所有历史信息的KV缓存机制，仍然具有优势。这是所有固定状态大小模型的共同短板。

实验表明，Mamba-3在关联回忆和问答这类任务上表现不错，但在需要从半结构化或非结构化数据中提取信息的任务上表现不佳。不过，在合成的‘大海捞针’（NIAH）任务上，Mamba-3的表现超越或持平了基线，并且展现出了比Mamba-2更好的泛化能力。

推理效率：

在常用的bf16精度和128状态维度设置下，Mamba-3的SISO和MIMO版本都比Mamba-2和Gated DeltaNet要快。

这张图则更直观地展示了Mamba-3的优势。横轴是状态大小（可以看作是推理速度的代理，越小越快），纵轴是预训练困惑度（模型性能的代理，越低越好）。Mamba-3 MIMO版本在不增加状态大小（也就是不牺牲速度）的前提下，将性能-效率的帕累托前沿又向前推进了一步。

最后，消融实验验证了Mamba-3各项改进的有效性。

梯形离散化和引入的偏置项协同作用，显著提升了模型性能。而在状态跟踪任务上，拥有RoPE的Mamba-3几乎完美地解决了奇偶性和模运算任务，而没有RoPE的Mamba-3和Mamba-2则表现得和随机猜测差不多。

Mamba-3的故事，是关于如何在计算效率和模型能力之间寻找更优解的探索。

在需要无损记忆和精确检索的长文本任务上，固定大小的状态记忆机制，依然是它相较于Transformer的软肋。作者也坦言，将Mamba-3与外部的检索机制相结合，构建混合架构，或许是未来的一个重要方向。

你觉得Mamba-3会取代Transformer吗？还是一个有益的补充？

参考资料：

https://openreview.net/forum?id=HwCvaJOiCj

来源：算泥社区

标签： transformer 王座 mamba mamba架构架

本文地址：http://news.43b.com.cn/a/1545566.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

万丈高楼平地起

Mamba的进化之路

Mamba-3的新花样

架构性能大比拼

相关推荐