把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 来自CMU、华盛顿大学、Meta AI的研究人员提出MagicPIG,通过在CPU上使用LSH(局部敏感哈希)采样技术,有效克服了GPU内存容量限制的问题。 cpu 吞吐量 解码吞吐量 2024-12-27 13:56 3