10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制 定义了强化学习中的熵塌缩问题,并从 4 个模型家族,11 个模型上总结了熵与性能之间的经验转换公式,证明了策略熵在强化学习中的重要性。从理论与实践的角度发现了强化学习时的策略熵变化的驱动力:动作(模型输出的 token)发生的概率及其对应获得的优势之间协方差。 模型 代码 学习 协方差 熵增 2025-06-05 18:36 3