摘要:在2025年5月31日发表于arXiv的一篇前沿研究论文中,来自复旦大学和字节跳动Seed团队的研究者们提出了一种名为ARIA(Aggregates Rewards in Intention space)的创新方法,旨在解决语言智能体在开放式语言行动环境中面临
一、像解谜一样理解开放式语言行动的挑战
想象一下,你在玩一个猜谜游戏,但游戏规则异常复杂:你可以用任何方式提问,而不是简单的"是"或"否"。在这样的情况下,你可能会面临无数种提问方式,而每一种都可能带来完全不同的结果。这就是大型语言模型(LLMs)在开放式语言行动环境中面临的困境。
大型语言模型已经展现出在文本理解和生成方面的强大能力,这使得开发通过自然语言操作的自主智能体(即语言智能体)成为可能。这些语言智能体被期望能够通过语言驱动的行动与环境交互,完成各种任务,比如网页导航、基于文本的游戏,以及谈判等。这些任务通常需要长期规划和推理才能实现高层次目标,对当前的语言智能体构成了重大挑战。
根据行动空间的结构,语言智能体任务可以分为两大类:限制性行动空间任务和开放式语言行动任务。前者要求智能体从预定义的、离散的和可验证的行动集中执行行动,其中语言仅作为结构化环境的模板或命令接口。相比之下,开放式语言行动任务的行动空间由不受严格有效性约束的自由形式自然语言构成。这些任务带来了独特的挑战:
1. 智能体必须生成多样化、对上下文敏感的语言行动,这些行动会动态影响其他智能体或环境。 2. 语言行动的开放性导致了一个庞大、非结构化和高度策略性的行动空间,要求智能体进行推理、适应和优化,超越固定模式。
基于这些挑战,研究团队提出了一个关键问题:如何在开放式语言行动任务中提升语言智能体的性能?
二、强化学习的困境:在大海中寻找一粒沙
强化学习(RL)被广泛用于在复杂任务中提升语言智能体的能力,通过互动和反馈使它们能够学习。然而,在开放式语言行动环境中,RL面临着由极度稀疏奖励引起的严重挑战,这是由指数级大的行动空间导致的。
想象一下,你在一个装满数十亿颗沙子的沙漠中寻找一颗特定的沙粒。在开放式语言行动任务中,情况甚至更加困难,因为行动是以标记序列的形式表示的。给定大小为V的词汇表和平均序列长度L,行动空间会以V^L的规模扩展,导致组合和指数爆炸。
现有方法通过平均或衰减直接分配环境奖励。然而,这些方法对于开放式任务不够充分,因为基于采样的方法如PPO和REINFORCE必须在稀疏和延迟奖励的情况下搜索一个庞大、非结构化的空间。这导致奖励估计的高方差和低效的策略优化。
就像在沙漠中寻找一粒特定的沙子几乎是不可能的任务,在如此庞大的行动空间中,通过传统方法寻找有效的策略也是极其困难的。
三、ARIA:通过意图空间的奖励聚合点亮前行之路
为了解决这些挑战,研究团队提出了一种称为"语义投影"的操作,它将行动从高维标记空间投影到低维意图空间,使得在语义上等价的行动之间可以聚合奖励。
这就像是我们不再寻找一粒特定的沙子,而是将沙子按照颜色和大小分类,然后在这些更小的类别中搜索。LLM智能体的行动通常反映了潜在的意图,这些意图的数量远少于标记组合。例如,"我会先让步以鼓励对手妥协"和"通过主动妥协,我的目的是促使对方也这样做"表达了相同的意图:通过让步促使对方妥协。通过将这类行动归类到共享意图下,我们将行动空间从V^L减少到意图空间C,其中|C|远小于|V^L|。这种转换通过使稀疏奖励变得密集来减少方差,并促进更有效的策略优化。
建立在语义投影的基础上,研究团队提出了ARIA,一种通过意图空间的奖励聚合方法,用于训练语言智能体。ARIA将自然语言行动映射到特定任务的意图空间,实现对语义相似行动的奖励聚合,从而稳定和改进策略学习。为了自动构建意图空间C,ARIA对句子嵌入应用层次聚类,并自适应调整聚类粒度。然后,它聚合共享相似意图的行动的奖励,并使用REINFORCE优化压缩空间上的策略。
研究团队在四个语言行动任务上评估了ARIA,包括两个单智能体游戏(Guess My City、20 Questions)和两个对抗性游戏(Negotiation、Bargaining)。实验结果表明:1)ARIA显著降低了奖励方差,使训练更加稳定,提高了策略梯度效率;2)它在所有任务中始终优于离线和在线RL基线,在所有任务中平均提高了9.95%。
四、ARIA的工作原理:从混沌中创造秩序
ARIA的核心思想是将自然语言行动映射到一个更紧凑、更有意义的意图空间,这样语义相似的行动可以共享奖励信号。这就像是将星星按照星座分组,而不是试图单独追踪每一颗星星的位置。
首先,ARIA构建一个潜在的意图空间。给定行动空间A和观察空间O,每个元素x∈A∪O都会使用预训练编码器嵌入到语义向量中。研究团队应用层次聚类算法将嵌入空间划分为k个簇,形成意图空间C^k。聚类数量k通过奖励导向的粒度选择方法确定。
在意图空间C^k的基础上,定义一个聚类函数c_k:A∪O→[k],将每个元素映射到一个簇索引。在每一步t,行动和观察都被映射到簇标签a_t=c_k(a_t)和o_t=c_k(o_t)。给定历史h_t={a_1,o_1,...,a_{t-1},o_{t-1}},相应的标签序列为h_t={c_k(a_1),c_k(o_1),...,c_k(a_{t-1}),c_k(o_{t-1})}。
ARIA通过聚合共享相同语义意图的历史-行动对的奖励。轨迹奖励R使用时间折扣分配给中间步骤:R(h_t,a_t)=γ^{T-t}R,其中γ是折扣因子。对于每个意图对(h,a),通过平均所有映射到该意图的历史-行动对来计算聚合回报:
R^{(k)}(h,a) = (1/|S_{h,a}|) ∑_{(h_t,a_t)∈S_{h,a}} R(h_t,a_t)
其中S_{h,a}={(h_t,a_t):c_k(h_t)=h,c_k(a_t)=a}表示与意图(h,a)相关的历史-行动对集合。聚合回报R^{(k)}(h_t,a_t)用作策略优化的优势估计A(h_t,a_t)。
这种奖励聚合机制就像是一个智能分类系统,它不再关注每个单独的行动,而是关注行动背后的意图,从而在庞大的行动空间中创造出一种有序结构。
五、精确的粒度选择:找到恰到好处的平衡点
语义聚类帮助压缩自然语言行动和观察的自由形式、非结构化空间。然而,选择合适的粒度k仍然具有挑战性。例如,在谈判情境中,标准聚类指标(轮廓得分、Calinski–Harabasz指数和Davies–Bouldin指数)会因为行动之间的高相似性而倾向于过于粗糙的分组,忽略对任务至关重要的细粒度区别。
为了解决这个问题,研究团队提出了一种奖励导向的粒度选择机制,它评估进一步分割簇是否会带来有意义的奖励变化。与基于几何结构(即嵌入空间中的距离)的传统指标不同,该方法通过直接评估对奖励聚合的影响来与RL目标保持一致。
研究团队使用SplitScore来选择最优粒度k*,定义为SplitScore(k)=δ_k/|D|,其中δ_k=∑_{(h_t,a_t)∈D}|R^{(k+1)}(h_t,a_t)-R^{(k)}(h_t,a_t)|表示当簇的数量从k变为k+1时,所有(h_t,a_t)对的奖励变化,D是所有(h_t,a_t)对的集合。
为了选择最优粒度k*,研究团队定义了一个基于SplitScore的早停机制。给定阈值ε>0和窗口大小τ,当随着k的增加,SplitScore(j)
这种奖励导向的粒度选择机制就像是一个精细的调谐旋钮,它帮助ARIA找到最适合当前任务的聚类级别,既不会过于笼统而忽略重要差异,也不会过于细致而导致噪声增加。
六、理论支持:方差降低与收敛改进
研究团队通过理论分析证明,基于意图聚类的奖励聚合可以降低梯度下降的方差,同时保持小的偏差界限,从而提高训练稳定性和效率。
首先,他们证明了簇平均可以降低策略梯度算法的总方差和策略梯度的方差。具体来说,如果将A(h_t,a_t)表示为(h_t,a_t)的原始优势,将A表示为聚合优势,则有Var(A)≤Var(A)。
此外,对于单样本策略梯度估计器?_θlog π_θ(a|h)A(h,a),使用聚合优势A时方差会降低。具体来说,Var(?_θlog π_θ·A)≤Var(?_θlog π_θ·A)。
基于这些引理,研究团队证明了通过聚合减少方差改善了离线REINFORCE的收敛性能。给定N个独立同分布的训练集轨迹,令g=(1/N)∑^N_{i=1}∑_t?_θlog π_θ(a^i_t|h^i_t)A^i_t作为真实梯度g的估计器,定义σ^2=Var(?_θlog π_θ·A)。则有||g-g||_2=O(σ/√N)。
直观地说,由于聚类减少了σ,如果我们希望|g-g|
研究团队还分析了奖励聚合引入的偏差,引入了ε-双模拟的概念。如果簇中的行动是ε-双模拟的,则|Q^π(h,a)-Q^π(h,a')|≤2ε/(1-γ),这意味着簇均值之间的差异最多为O(ε)。由于?log π是有界的,内积偏差为O(ε)。
总的来说,通过使用条件期望和方差分解,研究证明用簇平均优势A替换原始优势A移除了簇内方差E[Var(A|C)],降低了策略梯度估计的总方差。只要期望保持近似不变,这种方差降低就会导致更稳定的训练和更快的收敛。它允许在不发散的情况下使用更大的优化步骤,并增加每个样本的效用,解释了为什么簇平滑的优势产生更平滑的学习曲线。
七、实验验证:ARIA的出色表现
研究团队在单智能体和对抗性环境中对ARIA进行了广泛评估,以验证其有效性。
对于单智能体环境,研究团队评估了Twenty Questions和Guess My City两个任务。在Twenty Questions中,智能体扮演猜测者角色,目标是通过提问最多二十个是非问题来识别从157个候选项中选出的隐藏词。在Guess My City中,智能体尝试在二十个问题内从100个候选城市中识别隐藏的城市,可以提出任何类型的问题并获得不限于是/否的自由形式回答。
对于对抗性环境,研究团队考虑了Bargaining和Negotiation两个竞争任务。在Bargaining中,Alice和Bob轮流提议如何在有限时间范围内分配固定金额。随着游戏进行,每位玩家的收益都会按玩家特定的折扣因子折扣。在Negotiation中,卖家(Alice)和买家(Bob)就具有真实价值的产品价格进行谈判,双方各有主观估值。
实验结果令人印象深刻。在对抗性任务中,ARIA在Bargaining和Negotiation中都达到了最高的平均胜率,分别超过离线和在线基线9.67%和9.83%。同样,在单智能体任务中,ARIA平均超过所有基线9.82%。
现有的离线和在线RL方法都依赖于行动采样和奖励分配,智能体与环境交互,收集行动样本,并将奖励分配给这些行动。这种方法在小型行动空间中效果不错,重复采样可以提供稳定和准确的奖励估计。然而,在开放式语言行动任务中,智能体通过自然语言行动,行动空间以V^L的规模增长。在如此庞大的空间中,每个样本通常只接收二元奖励信号,而样本大小N远小于行动空间,导致高度稀疏和嘈杂的奖励信号,使准确的信用分配变得具有挑战性。ARIA通过在意图空间中引入奖励聚合来解决这个问题,显著降低了奖励方差并提高了学习性能。
八、ARIA的迭代优势:持续提升的策略
确认ARIA显著优于基线后,研究团队进一步研究了其在迭代更新下的性能。正如表1和表2所示,ARIA在两次和三次迭代后分别额外提高了3.27%和1.85%。这表明奖励聚合有效地降低了方差,同时保留了策略学习所需的基本判别信号,反映了有利的偏差-方差权衡。这进一步提高了样本效率,减轻了过度平滑导致的过早收敛风险,证明奖励聚合可以提供稳定和累积的性能提升。
九、扩展到在线ARIA:动态样本生成与奖励建模
研究团队还将ARIA扩展到在线设置,以探索其在动态环境中的表现。他们首先使用预收集的轨迹进行奖励聚合,然后用聚合奖励初始化点式奖励模型(RM),该模型使用与策略模型一致的Llama-3.1-8B-Instruct实现。随后,策略与环境交互动态生成新样本,这些样本由RM评分以更新策略。此外,RM定期使用最新收集的数据更新,允许它与策略一起演化。
如图3所示,ARIA在不同迭代中实现了更快的奖励改进和持续更高的回报,相比现有的在线方法(ArCHer和StarPO)。这种改进源于两个关键优势:
1. 奖励聚合提供了初始密集且低方差的奖励信号,加速了早期阶段的策略学习。 2. 动态RM更新确保了奖励函数与不断发展的策略之间的一致性,防止了静态设置中常见的漂移和奖励不对齐。
这些因素共同提高了样本效率和奖励塑造准确性,导致更快更稳定的策略改进。
十、深入分析:ARIA如何工作的秘密
### 奖励聚合显著降低奖励方差
研究团队展示了聚合前后的奖励方差变化。如图4a所示,奖励聚合显著降低了行动奖励的波动范围。原始二元奖励分布高度极化,值主要集中在0或1附近。在大型行动空间中,大多数行动只被采样一次,相应的二元奖励直接分配给每个行动,导致高奖励方差。相比之下,奖励聚合后,同一簇内的行动共享共同奖励,这显著平滑了分布并降低了方差。图4b进一步证明了所有四个任务中奖励方差的降低,突显了奖励聚合在稳定策略学习中的有效性和必要性。
### 奖励聚合改进策略优化
为了评估奖励聚合是否改善了训练效率,研究团队首先比较了不同奖励塑造策略下的策略损失曲线。结果表明,ARIA应用语义级奖励聚合,加速了损失减少,相比原始REINFORCE基线。这表明通过聚合塑造奖励提供了更强的学习信号,使策略更新更快,提高了离线训练中的样本效率。
研究团队进一步观察到,尽管收敛到类似的损失水平,方法在下游性能上表现出显著差异。如图5a所示,ARIA在Bargaining和Negotiation任务中分别超过其他变体17.91%和13.80%。研究团队将这些收益归因于奖励衰减和奖励聚合的互补效应:奖励衰减引入了时间结构,有助于将信用分配给早期阶段的行动,但在降低信号噪声方面作用有限。相比之下,奖励聚合通过为语义相似的行动分配共享信号,大幅降低了奖励方差,从而提高了梯度估计的质量。这种方差降低使优化更加稳定和高效,在开放式语言行动环境中提升策略性能方面起着核心作用。
### ARIA对其他模型的泛化能力
为了进一步评估ARIA的可转移性,研究团队将其应用于Qwen模型(Qwen2.5-7B-Instruct和Qwen2.5-1.5B-Instruct),并在两个对抗性游戏上进行比较实验。如表3所示,更改基础模型始终带来改进。这表明奖励聚合方法与模型无关,独立于底层语言模型的特定架构特征或预训练数据。研究团队将这种泛化能力归因于大规模语言模型学习的语义空间中的共享结构属性。通过在意图空间中进行聚合,ARIA利用这些共性来降低奖励方差,同时保留任务特定的判别信号。
十一、结论:ARIA的意义与展望
在这项研究中,研究团队解决了开放式语言行动任务中强化学习的核心挑战,即智能体必须在指数级大的行动空间中操作并从稀疏、延迟的奖励中学习。为了解决策略优化中的高方差问题,他们引入了语义投影,这是一种新颖的意图感知框架,将自然语言行动从高维标记空间映射到低维意图空间。这种投影使得在语义相似的行动之间聚合奖励成为可能,有效地使稀疏奖励变密集并降低梯度方差。
基于这一思想,研究团队提出了ARIA,它通过层次聚类自动发现特定任务的意图结构,并将聚合奖励整合到REINFORCE中,以实现高效的策略学习。他们进一步提供了理论分析,表明用簇平均优势替代原始优势可以降低簇内方差,从而降低策略梯度的总体方差并提高学习稳定性。
在四个不同的任务上进行的广泛实验—包括单智能体和对抗性双智能体游戏—表明,ARIA改善了训练稳定性,加速了收敛,并始终优于强大的离线和在线RL基线。这些发现突显了结构感知奖励塑造在为开放环境中的语言智能体扩展强化学习方面的重要性。
总的来说,ARIA代表了一个重要的进步,它解决了语言智能体训练中的一个基本挑战:如何在庞大、非结构化的自然语言行动空间中有效学习。通过引入语义投影和意图驱动的奖励聚合,ARIA为未来的语言智能体研究开辟了一条有希望的道路,使它们能够在越来越复杂的交互环境中表现出更高的性能和适应性。
来源:至顶网一点号