genrm

打破强化学习瓶颈：Pre-PPO数据筛选 + 混合奖励模型

奖励作弊：模型可能会通过不当方式利用奖励函数的缺陷以获取高奖励，而不是真正提高任务性能。回复多样性减少：模型在训练过程中可能会失去回复的多样性，影响其生成多样化和创新性输出的能力。