让强化学习快如闪电:FlashRL一条命令实现极速Rollout 在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 强化学习的 rl tis rollout flashrl 快如闪电 2025-08-12 21:19 3