Multi-Head Latent Attention(MLA)实现过程
位置编码:由于Transformer本身无法捕捉输入序列的顺序信息,需要加入位置编码,将位置信息融入到输入向量中,如采用正弦和余弦函数的形式来生成位置编码向量。
mla attention latentattention 2025-02-05 21:40 6
位置编码:由于Transformer本身无法捕捉输入序列的顺序信息,需要加入位置编码,将位置信息融入到输入向量中,如采用正弦和余弦函数的形式来生成位置编码向量。
mla attention latentattention 2025-02-05 21:40 6