摘要:本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写,第一作者张劭为上海交通大学博士生(导师:温颖副教授),研究方向为人智协同与多智能体系统,共同第一作者王锡淮为上海交通大学博士生(导师:张伟楠教授),研究方向为强化学习与多智能体系
本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写,第一作者张劭为上海交通大学博士生(导师:温颖副教授),研究方向为人智协同与多智能体系统,共同第一作者王锡淮为上海交通大学博士生(导师:张伟楠教授),研究方向为强化学习与多智能体系统。通讯作者温颖为上海交通大学人工智能学院副教授,其团队SJTU-MARL实验室研究方向涉及强化学习,多智能体系统及决策大模型。AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区。
在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。
像上周刚刚引爆社区的 Manus,就号称能够让 LLM agent 能够与人实时协作交互完成任务。网上对 Manus 的吹捧很多,甚至 Manus 的一个内测码的价格在闲鱼上就被叫到了 6 万。但在实测视频中,我们可以看到 Manus 更像是回合制协作,用户输入一个指令后,Manus 进行规划,列出自己需要完成的任务,并逐步完成。用户只能在 Manus 完成任务的过程中静静等待,也无法修改 Manus 的计划,直到 Manus 完成它的计划才能开始新的交互。
但在现实生活中,我们与同伴互动协作完成一个任务时,并不是回合制互动的,人与人之间存在着更多频繁的互动以及对对方的观察与输入输出,这些互动带来了环境状态的改变以及对人即时反应能力的要求。
Manus 的交互形式仍然无法解决对人类的实时响应问题。用户在出现临时的想法变化,或希望和模型协作共同工作时,Agent 仍然面临无法快速响应,以及难以推断用户意图的挑战。
如何让模型实现真正的人机实时同步协作?在 Claude-3.7-sonnet 游玩宝可梦,模型在贪吃蛇中进行大比拼受到广泛关注的时刻,我们发现多人协作游戏或许是一个更合适的测试场景。
「锅里的牛排糊了!灭火器在哪?生菜还没切完!!」—— 如果你玩过《Overcooked》,一定体验过这种手忙脚乱的崩溃感。实时游戏的突发状况、疯狂倒计时的订单,以及频频和你抢活干的队友,让这款强调同步协作的游戏既充满欢乐又令人血压飙升。
《Overcooked》是一款 Team 17 发行的以合作烹饪为主题的派对游戏,玩家需在特别的厨房中与队友实时配合完成切菜、煎牛肉饼、组装汉堡以完成订单,并时刻注意灭火。游戏凭借极具挑战的实时协作机制和令人手忙脚乱的厨房布局,迅速成为考验团队默契的「友情 / 爱情检测器」,也因此得名「分手厨房」。
Overcooked游戏画面
有趣的是,这种高实时性、强交互的虚拟环境也吸引了多智能体系统(Multi-Agent System, MAS)和多智能体强化学习(Multi-agent Reinforcement Learning)研究者的目光。由于游戏要求智能体快速分工协作,解决合作中的协调问题,Overcooked 在 2019 年由 Stuart Russell 和 Pieter Abbeel 领衔的 Center for Human-Compatible AI ,通过简化实现成人智协同的基准 overcooked-ai,开始被被广泛用作探究智能体与人类协作能力的测试平台,尤其是和人类的零样本协作(Zero-shot Coordination)。研究者通过训练 AI 代理预测人类玩家的决策与沟通,探索分布式协作、应急策略优化等课题,其成果甚至为自动驾驶、工业机器人协作提供了灵感。在 overcooked-ai 的「虚拟后厨」,人机协作的边界正被重新定义。
原始的overcooked-ai环境
当实时同步协作对人而言仍有巨大挑战时,上海交大(共同第一作者为博士生张劭和王锡淮,导师为温颖副教授和张伟楠教授)与 AGI-Eval 评测社区开发的 DPT-Agent 框架和基于 Overcooked-AI 重新升级的 Overcooked Challenge 实时同步协作评估环境,加入更复杂的菜谱以及还原游戏的实时协作机制,让大模型加入这场协作游戏,直面同步实时协作挑战:
预判式协作:你切菜时,DPT-Agent 秒递盘子;牛排烧焦了,它抢先灭火;动态分工:根据订单优先级,自动切换「主厨」与「帮工」角色,有效安排时间;读心级配合:甚至能通过你的动作历史,推测你想做汉堡还是沙拉。DPT-Agent 和 Overcooked Challenge 环境现已开源,有兴趣的朋友可以试试接入大模型和 DPT-Agent 一起玩 Overcooked。
看到这里,你一定会问,平时话很多的 ChatGPT 输出一次要好几秒,还有在对话时要思考几十秒的 DeepSeek-R1,虽然推理能力很强也很会思考,但似乎延迟巨大,如何做到和人实时同步协作?
答案就是双过程理论(Dual Process Theory)—— 让大模型学会「边煎牛排边写策略」!
人脑同款双系统:快慢双脑破解 AI 协作难题
大模型在实时同步协作中为何频频翻车?问题出在「大模型想得慢做的慢」与「小模型做的快但做不对」的矛盾:
大模型往往生成一个决策至少需数秒,推理模型则可能达到惊人的几分钟,在分手厨房以秒计算的游戏进程里难以实施决策,而小模型响应的确很快,但往往由于能力不足,出现失误决策。
左:Overcooked Challenge 的关卡1,同时支持单人和双人游戏;右:Overcooked Challenge 的关卡2
作者使用了一系列的大小模型在 Overcooked Challenge 单人游戏上进行了测试,可以明显的看到绝大多数非推理模型在直接决策(Act as System 1)以及推理模型先思考再决策(Long CoT + Act as System 2)的情况下都无法得分,即使强如 GPT-4o,也无法超越简单的有限状态机(FSM)。
横轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)
这使得我们思考一个问题,模型是否能像人一样,一边不间断地做手上的工作,一边思考更复杂的策略,而不是想一步做一步?
借鉴人类双过程理论(Dual Process Theory),DPT-Agent 通过 System 1 和 System 2 的结合,为 Agent 装上「人脑同款双系统」:
「快脑」System 1—— 条件反射级响应代码即策略(Code-as-Policy):将高频操作(灭火、递食材)固化为有限状态机(FSM)规则,优化初始 FSM 策略;持续输出保障:即使 System 2 在后台思考,System 1 也能按 FSM 中最新策略持续行动,杜绝 “宕机卡顿”,原子动作响应延迟 「慢脑」System 2—— 战略级读心术心智理论(ToM):让 LLM 通过分析玩家动作历史,实时构建人类意图模型(例:「TA 连续取牛肉→今晚主打牛肉汉堡」);异步反思:在「快脑」指挥智能体做菜的同时,「慢脑」根据游戏历史优化策略,如发现「生菜总是不够」,自动调整备菜优先级,边协作边进化。DPT-Agent框架图
硬核实验:20 个模型 + 两大主流框架与 DPT-Agent 的大比拼
在全新的难度加强 Overcooked Challenge 环境上,20 个主流模型(涵盖 GPT-o3-mini、DeepSeek-R1 系列以及最新发布的 QwQ-32b 等)在 ReAct、Reflexion 和 DPT-Agent 的两个版本(带有 / 不带有心智理论能力)上进行了单智能体、多智能体以及真实人类合作测试,证明了 DPT-Agent 在实时同步协作上的超强能力。
「单人游戏实战」:高延迟模型的逆袭
在单人游戏中,DPT-Agent 在得分效率和得分上均优于 ReAct 和 Reflexion,而高延迟模型更是得到逆袭级别的表现。绝大多数高延迟模型在 DPT-Agent 框架的帮助下取得从有得分能力到能够真正得分的转变,相比 ReAct 和 Reflexion 取得大幅提升。DeepSeek-R1-70B 使用 DPT-Agent 框架后,在延迟基本不变的情况下,得分从使用 ReAct 的 -17.0 以及 Reflexion 的 -20.0 变为 +60.0,逆袭成「厨房战神」。而其他非推理模型也有不同程度的提升。
轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)
「智能协作实战」:当 DPT-Agent 遇上「偏科队友」
在真实的协作场景中,AI 常需面对能力参差不齐的伙伴 —— 可能是只会切菜的规则机器人,或是专注煎牛排却绝不上菜的「一根筋」AI。DPT-Agent 如何应对?团队设计了残酷的多智能体实验:
极端测试:与「偏科 AI」组队让 DPT-Agent 搭档三类规则 AI(专精切生菜 / 煎牛排 / 组装汉堡)。
为了公平比较,ReAct 和 Reflexion 使用和 DPT-Agent 相同的 System 2 输出方式与动作执行器来实现为 System 1 + System 2 框架。
推理模型战胜高延迟:DeepSeek-R1 满血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,获得 74.3 分的战绩,逆袭成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延迟增大,也一样呈现能力上升趋势。非推理模型表现也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表现与满血 DeepSeek-R1 接近,展现不俗实力。ToM 模块的双刃剑:神助攻案例:当规则 AI 是专注取牛肉的 Agent 时,DeepSeek-R1-70b 驱动的 DPT-Agent 通过 ToM 推断「玩家专注牛肉汉堡」,主动改变策略备好面包 + 生菜人类持续传递牛肉表明其偏爱处理肉类,所以智能体应专注于其他任务以优化团队合作。当规则 AI 是专注组装汉堡并上菜的 Agent 时,o3-mini-low 驱动的 DPT-Agent 通过 ToM 推断 “玩家专注于组装汉堡并上菜”,及时调整策略为准备所有的食材来进行配合人类玩家优先处理紧急的牛肉订单并进行快速组装,通常专注于组装和提供即食食品。智能体应通过准备熟透的牛肉并迅速传递完成的食材来支持这一点,以确保更顺畅的协作。翻车现场:「ToM 模块是协作上限的钥匙,但锁眼必须匹配模型自身的心智推理能力」。Llama3-70B 可能因自身 ToM 能力薄弱,搭载完整 DPT-Agent 后反而得分下降,没有观察到显著的推断现象关于 ToM 模块的更多研究,尤其是 Agent 和人的双向 ToM 过程,可以参考团队的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。论文链接:https://arxiv.org/abs/2409.08811「真实人类协作」:主客观均是协作王者
团队在学校内招募了 68 位学生和多智能体实验中所有的 Agent 进行了协作实验,并在先前实验的基础上增加了一个关卡。实验参与者在完全未知 Agent 身份的情况下与所有 Agent 以随机顺序进行实验,对 Agent 进行了协作能力和偏好程度的打分。
DPT-Agent 展现了超强协作能力,得分在两个地图上碾压其他框架,主观协作能力和人类主观偏好得分最高。
DPT-Agent和人类玩家在关卡1的游戏过程(蓝色帽子为人类玩家,红色帽子为DPT-Agent,视频为2倍速)
人类玩家借助关卡2的中间操作台无缝合作(蓝色帽子为人类玩家,红色帽子为DPT-Agent,视频为2倍速)
同时有趣的是,人类对 agent 的偏好和协作程度,可能与 agent 的得分贡献率有关,人类会展现出更多的对贡献率更高的模型的喜爱。
与人类协作游戏得分与各Agent的得分贡献率
人类主观评价得分
开源评估框架
DPT-Agent 使用的 Overcooked Challenge 环境现已开源,支持 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多种框架下的模型评估,同时公开多达 34 个主流模型包含 DeepSeek-R1 在内的评估结果,评估结果现已在 AGI-Eval 平台上线,未来计划推出人机协作评估,请大家一起来和大模型玩分手厨房!
来源:机器之心Pro