slime框架

Slime 框架深度解析:面向大规模RL的训推一体化实践

最近 RL 领域非常热闹,算法上涌现了各种神奇的操作:从少量数据、单条数据,乃至模型自产数据进行强化学习,甚至连标签错误的 RL 数据也能学到知识。这些进展都很有趣,但个人感觉尚未触及特别本质的突破。因此,我将更多精力转向了基础设施(Infra)层面。本文旨在

rl ipc ray slime框架 slime 2025-06-27 13:47  2