多令牌注意力(MTA):突破大模型注意力机制的信息瓶颈 在当今大语言模型(LLM)的核心架构中,软注意力机制(Soft Attention)如同模型的"搜索引擎",负责从海量上下文中定位关键信息。但传统机制存在一个根本性限制:每个注意力权重的计算仅依赖单个查询(Query)和键(Key)令牌向量的相似性。这种"单令 模型 mta 令牌 卷积 令牌注意力 2025-04-03 20:17 1