reward

121W,确实可以封神!

LLM+奖励模型 :当下的迫切需求!大模型生成的毒性内容、幻觉等问题严重影响落地,而奖励模型虽对提升对齐效果作用显著,但目前泛化能力都很弱,难以应对复杂任务。可以关注代理型奖励模型、自我反思奖励模型……

模型 推理 llm 关键帧 reward 2025-06-27 04:40  2