为什么稀疏奖励在蒙特卡洛方法中会导致高方差(High Variance)? 在强化学习(Reinforcement Learning, RL)中,蒙特卡洛方法通过采样完整轨迹(trajectory)来估计状态或动作的价值函数(Value Function)。在优化大型语言模型(LLM)的上下文中,轨迹指的是LLM生成的一个完整响应(f gamma llm 方差 蒙特卡洛 蒙特卡洛方法 2025-06-05 11:57 3