摘要:Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍,计算量就要翻四倍。同时,它的内存占用也随着序列长度线性增长。用它实现AGI,能源和算力需求不可想象。
Transformer统治了AI大模型领域。有人认为,实现AGI,Transformer就够了!
还有人认为,还需要几次底层架构革新。例如,华为《智能世界-2035》报告里就这样说。
随着模型训练、部署规模和计算需求的爆炸式增长,我们发现,算力和能源需求就像无底洞,那怎么才能让AI既聪明,又便宜,还能跑得快?
Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍,计算量就要翻四倍。同时,它的内存占用也随着序列长度线性增长。用它实现AGI,能源和算力需求不可想象。
学术界和工业界都在寻找出路。
Mamba登上了舞台。Mamba-3目前正在顶会ICLR 2026接受双盲评审。
它没有选择在Transformer的框架上修修补补,而是另辟蹊径,从一个更古老也更基础的理论——状态空间模型(SSM)里找到了灵感。
Mamba-3的故事,本质上是一个关于效率和智慧的权衡与进化。它从推理效率这个最实际、最要命的问题出发,引入了三个改进:一个更具表现力的递归方式,一套更聪明的状态更新规则,以及一个更能榨干硬件性能的多输入多输出(MIMO)架构。
Mamba-3到底耍了什么新花样,它又如何与Transformer掰手腕呢?
万丈高楼平地起
要理解Mamba-3的精妙,先聊聊什么是状态空间模型(SSM)。
这个概念最早并不是为自然语言处理(NLP)准备的,它的老本行是预测连续变化的系统,比如电路里的信号,气象云图的变幻,或者一个运动物体的飞行轨迹。从数学和概念上讲,它和循环神经网络(RNN)是近亲,都是那种一步一步处理序列,并保留一个‘记忆’来影响下一步决策的模型。
顾名思义,SSM的核心是‘状态空间’。你可以把它想象成一个描述系统当前所有状况的快照,里面包含了所有关键变量。SSM的工作就是接收一个输入序列x(t),把它映射到一个看不见的潜在状态h(t),这个h(t)就好像是RNN里的隐藏状态,然后根据这个状态预测出输出y(t)。
所有SSM都围绕着两个核心方程运转:
状态方程:h'(t)=A*h(t)+B*x(t)输出方程:y(t)=C*h(t)+D*x(t)这里的A, B, C, D四个参数,通常是权重矩阵,它们定义了系统的动态。在控制理论这些传统领域,这些矩阵是固定的,代表一个已知的系统。而在深度学习里,它们变成了需要通过训练来优化的参数,由神经网络的可学习权重来表示。
SSM的经典形态是为连续信号设计的,但我们处理的文本、图片、声音,在计算机里都是离散的数据。这就需要一个‘离散化’的步骤。
你可以把离散化想象成对一个连续流动的信号进行周期性采样。这个过程引入了一个新参数,叫做步长(Δ),它决定了我们多久采一次样。离散化的方法有很多种,但包括Mamba在内的大多数现代SSM都用了一种简单的方式,叫零阶保持(ZOH)。
经过离散化,SSM就能像RNN一样处理序列数据了。
但是,早期的离散SSM并不实用,因为它继承了RNN的一些老毛病,比如训练效率低,而且记性不好,很难捕捉序列里距离很远的两个元素之间的关系,也就是所谓的‘长距离依赖’问题。
转机出现在2021年,一个叫Albert Gu的研究者和他的同事们提出了结构化状态空间序列模型,简称S4。这个工作为后来的Mamba铺平了道路。
S4模型做了两件大事。
第一是通过卷积实现高效训练。离散SSM虽然在推理时像RNN一样快,但训练起来却奇慢无比。S4的作者们发现,由于SSM只涉及线性的加法和乘法运算,这一连串的递归操作可以展开成一个一维的卷积核。这个卷积核可以直接把输入序列x一步到位地映射到输出y。而卷积运算,可以使用一种叫‘快速傅里叶变换’的算法来高效计算。
这就带来了一个绝妙的好处:在训练时,当整个输入序列都已知的情况下,S4可以像一个卷积神经网络(CNN)一样,并行地、高效地进行计算;而在推理时,当我们需要一个一个地生成token时,它又可以变回RNN的形态,享受极快的速度和极低的内存占用。两全其美。
第二是通过结构化矩阵解决长记性问题。为了让SSM能够记住更久远的信息,S4没有像常规的机器学习模型那样随机初始化它的权重矩阵A和B,而是采用了一种叫HiPPO的技术,从特殊的正交多项式(比如勒让德多项式)推导出矩阵的结构。这种特殊的初始化方式,就像给模型装上了一个记忆增强插件,使得它在处理长序列时的性能飙升。
S4的后续变种,比如DSS,S5,以及我们今天的主角Mamba系列,虽然在具体的初始化方案上有所不同,但都保留了HiPPO的核心思想:给矩阵A和B施加某种结构,通常是对角结构,来保证模型能够稳定地更新状态,并记住长期的依赖关系。
Mamba的进化之路
2023年,Tri Dao和Albert Gu(又是他)在论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了Mamba架构。这是第一个在语言建模上,能与Transformer正面抗衡的架构。
Mamba的核心创新有两个。
第一个叫‘选择性状态空间模型’。它给传统的SSM装上了一个‘选择’开关,让模型能够根据当前输入的重要性,动态地决定要记住哪些历史信息,忽略哪些历史信息。这个能力,以前被认为是Transformer自注意力机制的专利。
第二个叫‘硬件感知并行扫描’。这是一个非常工程化的优化,它专门针对现代图形处理单元(GPU)的计算特性,设计了一种高效的算法来处理SSM的递归计算,最大化地利用硬件资源。
一年后,还是这两位作者,又发表了一篇论文,进一步探讨了SSM和Transformer之间的深层联系,并提出了一个更快更强的改进版,Mamba-2。
Mamba-2发现一大类SSM的计算过程,可以等价地表示为一种带掩码的矩阵乘法。这个发现,使得Mamba-2可以利用矩阵乘法的高效实现,训练速度比Mamba-1提升了50%。同时,它还支持了更大的状态维度,让模型能够处理更复杂的任务,尤其是在长序列上。
现在,故事发展到了Mamba-3。
Mamba-3是在Mamba-2的基础上,从推理效率这个角度出发,做出的又一次进化。它带来了三个核心的方法论改进。
第一个叫‘梯形离散化’。它用一种更精确的数学方法(梯形法则)来替代之前Mamba-2里相对粗糙的方法(欧拉法则),来完成从连续信号到离散序列的转换。这个改进让模型的递归更新变得更具表现力。
第二个叫‘复杂状态空间模型’。它通过引入复数来定义SSM,使得模型的状态更新能力大大增强,解决了许多线性模型在处理一些需要精确状态跟踪的任务(比如数数的奇偶性)时能力不足的问题。
第三个叫‘多输入多输出SSM’。这是一个纯粹为了提升解码速度和硬件效率的设计。它将原本基于外积的状态更新,改为了基于矩阵乘法的更新,极大地提高了计算的‘算术强度’,让GPU不再‘挨饿’。
Mamba-3的新花样
更精确的离散化:梯形法则
结构化SSM在理论上被定义为一个连续时间系统,但实际处理的数据都是离散的。从连续到离散的转换,也就是离散化,是关键一步。
Mamba-2用的是欧拉法则,你可以把它想象成用一个矩形的面积去近似一段曲线下的面积,它只考虑了区间的终点值。这种方法的误差是O(Δt²),虽然简单,但不够精确。
Mamba-3换用了一种更高级的方法:广义梯形法则。它不再是简单地用矩形去近似,而是用一个梯形,同时考虑了区间的起点和终点,用一个数据相关的凸组合来连接它们。这种方法的误差降低到了O(Δt³),精度整整提高了一个数量级。
Mamba-3在进行状态更新时,不仅考虑了当前时间步的输入,还回看了一眼上一个时间步的输入。这个小小的‘回眸’,让模型对序列动态的捕捉能力变得更加细腻和强大。
这个改进不仅提升了模型的表现力,还使得Mamba-3不再需要之前很多线性模型都依赖的一个组件——短因果卷积。这让整个模型架构变得更加简洁和统一。
更聪明的状态更新:复数与旋转
现代SSM为了追求效率,一直在简化其核心的状态转移矩阵。S4模型用的是复杂的‘正规加低秩’矩阵,Mamba把它简化为实数对角矩阵,Mamba-2更是简化到了一个标量。这些简化在语言建模任务上没有带来明显的性能下降,但也削弱了模型在一些简单状态跟踪任务上的能力。
比如,判断一个二进制序列里‘1’的个数是奇数还是偶数(奇偶性任务)。这个任务对于单层的LSTM(长短期记忆网络)来说是小菜一碟,但对于状态转移矩阵只有实数特征值的Mamba-2来说,却难如登天。
原因在于,实数特征值只能表示状态的‘伸缩’和‘翻转’,无法表示‘旋转’。而像奇偶性这样的任务,其内在的状态转换恰恰是周期性的,就像一个开关在‘开’和‘关’之间切换,这在数学上最自然的表示就是旋转。
Mamba-3为了恢复这种能力,引入了复数。
它证明了,一个复数值的SSM,在离散化后,等价于一个状态维度加倍的实数值SSM,其状态转移矩阵由一系列2x2的旋转矩阵块构成。
更进一步,它还证明了,这种旋转操作可以被等效地‘吸收’到输入和输出的投影矩阵B和C中。这最终导向了一个惊人的结论:使用复数SSM,等价于在一个普通的、基于标量转移的SSM的输入(B)和输出(C)上,应用了一种数据相关的旋转位置嵌入(RoPE)。
RoPE在很多大模型(比如Llama)里都在用,它通过给词向量注入绝对或相对的位置信息来帮助模型理解语序。Mamba-3在这里做的,是把RoPE从一个‘数据无关’的、固定的位置编码,变成了一个‘数据相关’的、动态的状态旋转器。
这个被作者称为‘RoPE技巧’的实现,让Mamba-3用极小的计算开销,就获得了强大的状态跟踪能力,能够轻松解决奇偶性、模运算等Mamba-2无法完成的任务。
更极致的硬件效率:从外积到矩阵乘法
在自回归生成(也就是一个词一个词地往外蹦)的场景下,性能通常用每秒生成的token数(TPS)来衡量。在这个指标上,像Mamba这样的模型,因为只有一个固定大小的隐藏状态,而不需要像Transformer那样维护一个随序列长度线性增长的KV缓存,所以具有天然的优势。
但是,TPS这个指标没有考虑到硬件效率。一个更底层的指标是‘算术强度’,它定义为一次操作的浮点运算次数(FLOPs)与为此移动的数据字节数的比值。
现代的GPU,就像一个超级强大的计算工厂,它的计算能力(ops)远远超过了它的数据搬运能力(byte)。如果算术强度太低,GPU就会把大量时间浪费在等待数据从内存里搬运过来的路上,而不是在真正地进行计算。这种情况,我们称之为‘内存受限’。
Mamba-2的状态更新是一个外积操作。它的算术强度是一个常数,远低于现代GPU的理想值。这意味着,在解码时,Mamba-2并不能充分发挥出GPU的威力。
Mamba-3做了一个看似简单却异常有效的改动。它把状态更新从外积改成了矩阵乘法。
这在信号处理的语境里,恰好对应着从单输入单输出(SISO)系统到多输入多输出(MIMO)系统的泛化。
在MIMO公式下,算术强度与一个新引入的秩r成正比。通过调整r的大小,我们就可以灵活地提高算术强度,将解码过程从‘内存受限’推向‘计算受限’,从而更充分地利用硬件,获得更高的TPS。这个过程甚至不增加推理时的内存占用(状态H的大小不变)。
这三板斧,共同构成了Mamba-3的核心混合器(Mixer)原语。整个Mamba-3的架构也进行了一些调整,交替使用Mamba-3块和SwiGLU块,并采用了预归一化。
架构性能大比拼
在语言建模性能上,论文作者们使用FineWeb-Edu数据集的1000亿个token,对Mamba-3以及Transformer、Gated DeltaNet和Mamba-2等基线模型,在180M、440M、820M和1.5B四种不同参数规模上进行了预训练。
结果显示,在所有模型规模上,Mamba-3在各种下游任务上的表现都全面领先。
在检索能力方面,也就是从长文本中精确查找信息的能力,Transformer由于其可以无损回顾所有历史信息的KV缓存机制,仍然具有优势。这是所有固定状态大小模型的共同短板。
实验表明,Mamba-3在关联回忆和问答这类任务上表现不错,但在需要从半结构化或非结构化数据中提取信息的任务上表现不佳。不过,在合成的‘大海捞针’(NIAH)任务上,Mamba-3的表现超越或持平了基线,并且展现出了比Mamba-2更好的泛化能力。
推理效率:
在常用的bf16精度和128状态维度设置下,Mamba-3的SISO和MIMO版本都比Mamba-2和Gated DeltaNet要快。
这张图则更直观地展示了Mamba-3的优势。横轴是状态大小(可以看作是推理速度的代理,越小越快),纵轴是预训练困惑度(模型性能的代理,越低越好)。Mamba-3 MIMO版本在不增加状态大小(也就是不牺牲速度)的前提下,将性能-效率的帕累托前沿又向前推进了一步。
最后,消融实验验证了Mamba-3各项改进的有效性。
梯形离散化和引入的偏置项协同作用,显著提升了模型性能。而在状态跟踪任务上,拥有RoPE的Mamba-3几乎完美地解决了奇偶性和模运算任务,而没有RoPE的Mamba-3和Mamba-2则表现得和随机猜测差不多。
Mamba-3的故事,是关于如何在计算效率和模型能力之间寻找更优解的探索。
在需要无损记忆和精确检索的长文本任务上,固定大小的状态记忆机制,依然是它相较于Transformer的软肋。作者也坦言,将Mamba-3与外部的检索机制相结合,构建混合架构,或许是未来的一个重要方向。
你觉得Mamba-3会取代Transformer吗?还是一个有益的补充?
参考资料:
https://openreview.net/forum?id=HwCvaJOiCj
来源:算泥社区