贝叶斯注意力

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制,它将文本处理为单词(或 tokens)序列。注意力计算的复杂度随序列长度 T 呈平方增长,导致处理长文本的成本显著增加。为了降低计算成本,研究人员积极探索注意力的替代方案,包括递归模型(如

马尔可夫链 吉布斯 协方差矩阵 贝叶斯 贝叶斯注意力 2025-03-10 07:08  3