无监督RL的粗略分析 近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。 llm 自然语言处理 rl 监督rl uda 2025-06-27 16:07 2