最近,Epoch AI的newsletter上发布了一个客座研究《算法能多快提升能力?》探讨了AI能力提升的速度,特别是关于“软件智能爆炸”的可能性。其核心问题是:AI算法的重大突破,是否都必须依赖海量算力? 关键在于“计算依赖型”算法研究将AI算法进步分为两大类:1) 计算无关型(Compute-independent)- 小模型也能见效,大模型更强- 如LayerNorm、RoPE、FlashAttention- 通常带来约3.5x性能提升2) 计算依赖型(Compute-dependent)- 小模型不明显,甚至拖后腿,大模型一飞冲天- 如MQA、MoE、Transformer架构- 在大模型上可实现10-50x的提升! 验证实验:计算无关型效果有限研究团队用一个缩小版GPT-2模型,测试了各种算法的“算力等效增益”(CEG)。如CEG为2x表示该算法可用一半算力达到相同效果。- 多种计算无关型算法组合,最多只带来3.5x增益- 而像Transformer这类计算依赖型的突破,能带来10-50x甚至更高的增益!无关型算法虽好,但最具颠覆性的提升,往往要靠算力才能解锁。 ✨ DeepSeek-V3:受限算力下的算法突破DeepSeek-V3是一个亮眼案例。尽管芯片受限,算力远不如GPT-4等同类模型,它仍展现出强大性能。为什么?MLA、MoE架构和混合精度训练,这些正是典型的“计算依赖型”算法。DeepSeek在算力受限的条件下,依然成功利用并实现了那些本应依赖大算力才能见效的计算依赖型算法。 启示:AI进步,离不开“算力+算法”双轮驱动这项研究给我们带来几点重要启发:- 真正颠覆性的算法(如Transformer)是计算依赖型的- 算力不仅让模型变大,也让 “大模型才有效”的算法成为可能- 没有足够算力,很多高潜力算法根本无法验证- 拥有强大算力,拥有验证高潜力算法的通行证 总结:想要“软件智能爆炸”,必须双管齐下AGI的下一个飞跃,可能不是靠优化小模型的技巧,而是靠那些 “只在大规模下才爆发”的算法突破。换句话说:- 算力若被卡住,AI最前沿创新可能也会被卡住。- 算力释放出来,或许才是真正的智能爆炸开始。 参考资料Henry Josephson, How Fast Can Algorithms Advance Capabilities?摘要:最近,Epoch AI的newsletter上发布了一个客座研究《算法能多快提升能力?》探讨了AI能力提升的速度,特别是关于“软件智能爆炸”的可能性。其核心问题是:AI算法的重大突破,是否都必须依赖海量算力? 关键在于“计算依赖型”算法研究将AI算法进步分为两
来源:我就是我的科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!