算力直降97%,GPT-3存储只用20MB?!这篇新论文火了 他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。 论文 llm 雅可比 2024-12-29 12:09 3