打破强化学习瓶颈:Pre-PPO数据筛选 + 混合奖励模型 奖励作弊:模型可能会通过不当方式利用奖励函数的缺陷以获取高奖励,而不是真正提高任务性能。回复多样性减少:模型在训练过程中可能会失去回复的多样性,影响其生成多样化和创新性输出的能力。 模型 推理 创意写作 rtv genrm 2025-04-04 01:52 2