效率飙涨177%!清华、蚂蚁联合开源全异步RL新成果,8B/14B模型斩获同尺寸SOTA
从OpenAI o1验证强化学习在大语言模型上的巨大潜力,再到DeepSeek-R1对这项技术的性能与成本效益优化,理论、算力与数据的协同演进,正让强化学习快速走向台前,成为推动AI下一阶段智能水平提升的引擎。
从OpenAI o1验证强化学习在大语言模型上的巨大潜力,再到DeepSeek-R1对这项技术的性能与成本效益优化,理论、算力与数据的协同演进,正让强化学习快速走向台前,成为推动AI下一阶段智能水平提升的引擎。
清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!
作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全