LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了! 最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。 与传统的LLM不同,LAM不仅能理解用户的自然语言指令,还能将这些指令转化为具体的行动步骤,在软件环境中自主执行文档编辑、表格处理等任务。 虽然这实际上并不是一个全新的概念,但LAM是首款能够操作Microsoft Office来执行任务的模型。摘要:LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了!最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。
让LLM行动起来
LAM通常建立在LLM的基础上,但是从LLM到LAM的过渡却并没那么容易,如下图所示。既然LAM能够为我们执行任务,化为我们的「分身」来帮我们与世界互动,那么如何开发与部署LAM就是一个关键的问题。
LAM的训练过程包括以下关键步骤:
1. 任务分解与规划 :模型首先学习将任务分解为逻辑步骤,并生成详细的执行计划。
2. 行动生成与执行 :将用户意图转化为具体的行动指令,包括图形用户界面操作、API调用等。
3. 动态调整与优化 :在执行过程中,LAM能根据反馈调整其行动策略,以提高成功率和效率。
4. 从奖励机制学习 :通过奖励机制进行微调训练,进一步优化模型的性能。
阶段1:任务分解与规划
在初始阶段,模型将任务分解为逻辑步骤。 研究人员以Mistral-7B作为基础模型,收集了来自多个来源的76,672个任务-计划对,包括应用帮助文档、WikiHow和历史搜索查询。 在此阶段不会生成具体的行动,但模型获得了强大的规划能力,为后续的动作执行提供了重要基础。阶段2:行动生成与执行
在此阶段,作者引入了由GPT-4o标注的任务-动作轨迹,让LAM向先进的AI模型GPT-4o学习。 将学习到的任务规划转化为可执行的动作,从GPT-4o的成功经验中汲取知识和策略,更好地理解和处理复杂任务。 本文中的示例应用是Microsoft Word,在该环境下共收集了2,192个成功的专家轨迹。每个轨迹由一系列状态-动作对组成。通过对这些成功的行动序列进行学习,我们获得了LAM 2 之后,我们让模型尝试解决GPT-4o失败的任务,通过ReAct机制与环境进行交互。 首先从GPT-4o失败的任务中采样2,284个任务,并收集了LAM 2 生成的496个成功轨迹,将这些数据与2,192个GPT-4o成功轨迹相结合,形成了一个增强数据集。在这一阶段,LAM会自主探索新的解决方案,尝试解决那些曾难倒其他AI系统的问题,拓展自身能力边界,增强对不同任务和场景的适应性。阶段4:从奖励机制中学习
尽管模型在前述阶段有所改进,但未能充分利用失败所带来的学习机会。 因此,论文引入了强化学习来解决这些问题。通过基于奖励的训练对系统进行微调,根据模型执行任务的结果给予相应的奖励或惩罚,引导模型不断优化行为策略,以达到更好的效果。 可以看到,训练LAM的过程包括四个步骤:首先,模型学习如何将任务分解为逻辑步骤。其次,通过先进的AI系统(如GPT-4o)学习如何将计划转化为具体行动。然后,LAM会独立探索新的解决方案。最后,通过奖励机制进行微调训练。 表中总结了每个阶段使用的训练数据。众所周知,数据是训练LLM的基石。 类似地,LAM在监督微调阶段也需要经过精心准备的以行动为导向的高质量数据。
因此研究者采用了两阶段的数据收集:任务-计划数据和任务-行动数据,如下图所示。
LAM的在线评估
我们将训练完成的LAM集成到GUI智能体UFO中,使模型预测的行动能够在Windows操作系统中有效执行,并与环境进行交互。UFO智能体通过接受自然语言的用户请求,并与Windows应用程序的UI控件进行互动,完成具体任务。
1. 任务成功率(Task Success Rate, TSR): 成功完成任务的数量占尝试总任务数量的百分比。
2. 任务完成时间: 从初始请求到最终动作完成的总时间。
3. 任务完成步骤: 智能体成功完成每个任务所执行的总动作步骤数量。
4. 平均步骤延迟: 每个动作步骤的平均耗时。
未来展望
LAM的推出为办公自动化、复杂任务处理等领域带来了新的可能性。 例如,在Microsoft Office中,LAM可以自动执行文档编辑、表格处理等任务,极大地提高工作效率。 此外,LAM还有潜力在更多领域发挥重要作用。
LAM展示了其发展潜力,在商业化落地中仍然面临一些挑战,例如,控制机器人系统的LAM可能会误解指令并导致损害;金融或医疗应用中如果执行错误动作,可能带来严重的后果。 然而,研究人员相信,LAM代表了AI发展的一次重要转变,预示着AI助手将能更积极地协助人类完成实际任务。 行动胜于言辞 LAM的推出标志着人工智能从语言理解向任务执行的转变,开启了AI自主的新时代。从生成语言到执行具体动作,大模型将能在现实世界中产生直接影响,这是迈向AGI的关键一步。 未来,随着技术的不断发展,LAM将在更多领域发挥重要作用,为我们的生活和工作带来更多便利和惊喜。来源:东窗史谈