超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO 近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 开源 rl grpo rl算法 dapo 2025-03-18 23:22 2