异步rl

效率飙涨177%！清华、蚂蚁联合开源全异步RL新成果，8B/14B模型斩获同尺寸SOTA

效率飙涨177%！清华、蚂蚁联合开源全异步RL新成果，8B/14B模型斩获同尺寸SOTA

从OpenAI o1验证强化学习在大语言模型上的巨大潜力，再到DeepSeek-R1对这项技术的性能与成本效益优化，理论、算力与数据的协同演进，正让强化学习快速走向台前，成为推动AI下一阶段智能水平提升的引擎。

模型开源异步 rl 异步rl 2025-06-05 20:16 10

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL一夜击穿14B SOTA

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL一夜击穿14B SOTA

清华与蚂蚁联合开源AReaL-boba²，实现全异步强化学习训练系统，有效解耦模型生成与训练流程，GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA，性能接近235B模型。异步RL训练上大分！

开源 gpu 异步 rl 异步rl 2025-06-05 17:07 10

重磅开源！首个全异步RL训练系统，SOTA推理提速2.77倍

重磅开源！首个全异步RL训练系统，SOTA推理提速2.77倍

作为 AReaL 里程碑版本 AReaL-boba 的重磅升级，AReaL-boba² (正式全名：A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念，再次加量：除了更全的功能和更详细的文档说明，更以全

开源异步 rl rl训练异步rl 2025-06-04 12:56 10