「注意力实际上是对数的」?七年前的Transformer还有新发现
作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。这篇博客,还得到了 Karpathy 的高度肯定:有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。据我所知,这首先是 Transform
张量 transformer 矩阵乘法 张量积 对数 2025-03-23 19:22 1
作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。这篇博客,还得到了 Karpathy 的高度肯定:有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。据我所知,这首先是 Transform
张量 transformer 矩阵乘法 张量积 对数 2025-03-23 19:22 1