「注意力实际上是对数的」?七年前的Transformer还有新发现
作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。这篇博客,还得到了 Karpathy 的高度肯定:有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。据我所知,这首先是 Transform
张量 transformer 矩阵乘法 张量积 对数 2025-03-23 19:22 1
作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。这篇博客,还得到了 Karpathy 的高度肯定:有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。据我所知,这首先是 Transform
张量 transformer 矩阵乘法 张量积 对数 2025-03-23 19:22 1
科学界有句名言:到最后,一切都归结为矩阵乘法。无论你是在物理学或工程学中求解偏微分方程,还是在使用经典模型或深度神经网络进行机器学习,最终在数值上,都是在某种顺序中重复地进行矩阵和向量的乘法。这些矩阵通常可能非常大,比如1000,000 x 1000, 000
int a[3][3]={{2,-1,3},{0,9,2},{3,-1,0}},
子硬件可以利用光进行机器学习计算,是一种速度更快、更节能的替代方案。但是,有些类型的神经网络计算光子设备无法执行,需要使用片外电子设备或其他会影响速度和效率的技术。