摘要:从最开始进行的Agent能力评估,到后面multi-Agent平台设计,以及目前在做的Agent大模型训练,他们都发现Agent具有很强的自我反思和推理能力。
近日,Salesforce AI公司的刘志伟博士和所在团队提出一种名为PRAct Agent的框架,并提出了对应的RPO优化算法。
图 | 刘志伟(来源:刘志伟)
从最开始进行的Agent能力评估,到后面multi-Agent平台设计,以及目前在做的Agent大模型训练,他们都发现Agent具有很强的自我反思和推理能力。
该团队还发现很多已有框架从训练模型变成优化提示词,也能够带来很多的效果提升。所以他们开始探索让大模型自动优化自己的提示词,看看是否能够得到一个完整的Agent自我优化的循环。
结果也是符合预期的,在他们测试的数据集上,相比于人去花时间思考优化的提示词,Agent能够更加全面地总结优化自己的提示词。
当然,这里面存在的问题是:优化的过程也需要写一些元提示词(meta-prompt)。所以他们的研究重点就变成:设计哪些元提示词以及优化提示词的哪一部分能够带来最好的效果。
最后发现只需要去优化Agent的动作(action)相关的提示词,而且只需优化对应的条件,就能让Agent根据执行后的结果进行反思总结,从而进一步优化提示词。这样反复的优化迭代能够提升效果而且也不会带来负面影响。基于此,他们就提出了PRAct Agent框架以及对应的RPO优化算法。
所有审稿人都对本次工作的简单易用性(simple and effective)表示认可,这也是研究人员所期待的。因为他们希望所使用的框架方法,一定是简单易用且具有普适性的。所以,他们在一开始设计框架时就尽量避免过度复杂化。这让本次方法能够与现有几乎所有Agent框架相结合,从而去优化它们的效果,以便让后者更好地适应每个Agent应用的场景。
目前,本次方法还处于科研阶段,要进入商业化产品阶段还需要长期的研究探索。但是,假如如果未来大量的Agent已经普及,如何让它们持续地自我提升,或者如何让它们从现实中的反馈中去总结提升效果,这会从根本上改变很多产品的设计思路。因为目前大家考虑的都是如何优化模型或者优化一些Agent设计。但是当模型的训练达到瓶颈,或者需要消耗的资源量太大,这时对Agent的提示词优化的需求就更大。而且将Agent应用在各种产品里之后,肯定需要不断优化以及调整对应的提示词,这时本次框架的优势就能显示出来。通过他们的框架,首先不再需要人对系统有非常专业的理解,再次它能够持续地自我反馈以及更新,这就能够将人从繁琐的提示词工程中解放出来。更长远来看,也许自动化地优化提示词是更适合大规模产品部署开发的一种方式。所以,虽然短期内相关产品不会直接利用到本次框架,但是,长期来看这个方向具有巨大开发潜力的。
而在研究中,当他们开始研究Agent的问题时,经常会遇到自己设计的提示词并不能够完整解释一个任务该如何解决,所以会反复地根据测试的数据以及任务需求来不断修改提示词。这就让他们从AI模型优化的方式开始思考,到底提示词改到什么程度才算是好的?怎样才能说明找到了一个最优的提示词呢?这时他们发现学界还有业界都在开始探究提示词的优化,并且将其与模型优化联系起来。
但是他们在实际使用时却发现,虽然大的方向很多人在讨论了,但是具体到细节设计上却是困难重重。比如,提示词优化不像模型优化那样具有数学推导上的收敛性,他们一开始在进行直接进行迭代优化的时候发现效果经常会不太稳定,甚至优化出来的提示词会越来越偏离最初的任务设计。
这时,他们想到可能需要一个新的Agent框架来配合提示词优化。所以他们就又重新设计一种新的Agent框架,将Agent执行行为决策的部分提示词作为优化目标,同时在元提示词中给出规范化的训练方法,这时他们发现迭代优化已经能够比较稳定。
接下来他们就示开始测试在不同数据集上的表现,他们惊喜地发现在很多数据基准环境上,他们的Agent框架配合上他们的优化算法,能够达到远超一个领域专家精心设计的提示词。这是因为让模型自己去优化,能够最大化地利用所有的环境反馈信息,同时生成的提示词也是模型按照最优的情况生成出来的,这就形成了双重的保证来让效果更好。
日前,相关论文以《PRACT:优化 LLM 代理的原则推理和行动》(PRACT:Optimizing Principled Reasoning and Acting of LLM Agent)为题发在arXiv[1],刘志伟是第一作者。
图 | 相关论文(来源:arXiv)
来源:DeepTech深科技