广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术 广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化学习算法的核心因素之一。 策略 平衡 方差 ppo gae 2025-03-23 09:46 2