SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架 SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使L 训练 代理 学习 llm llm代理 2025-03-28 09:42 1