mtla

时空压缩!剑桥大学提出注意力机制MTLA

在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 R

时空 剑桥大学 kv mtla 机制mtla 2025-06-11 10:42  2