论文揭秘:大模型加持无人机分层框架,实现自主规划!

B站影视 港台电影 2025-10-10 12:17 1

摘要:它们或者严格按照人类预设好的航线飞行,不能随机应变,遇到一点意外情况就出问题。或者就得靠一个技术娴熟的飞手在后面实时遥控,这不仅成本高,而且飞手的反应和判断力成了整个系统的瓶颈。

AI,为那些危险又重要的工业检测带来了新可能。

化工厂里密布的管道,或是高耸入云的电力设施,是现代工业的心脏。我们需要定期派人去检查,看看仪表读数是否正常,管道有无泄漏,设备有无损坏。

这些工作,辛苦且危险。人工作业安全风险高,人的生理极限也决定了检查不可能做到全天候,无死角。

于是,无人机检测应运而生。

但目前市面上的所谓“智能”无人机,大多还是个“遥控玩具”。

它们或者严格按照人类预设好的航线飞行,不能随机应变,遇到一点意外情况就出问题。或者就得靠一个技术娴熟的飞手在后面实时遥控,这不仅成本高,而且飞手的反应和判断力成了整个系统的瓶颈。

现在的无人机检测系统,在任务的广度(比如换个新工厂就得重新编程),任务的复杂性,以及同时部署无人机的数量这三个方面,都存在天花板。

我们能不能让无人机群自己“思考”,自己“做决定”,并协同完成任务呢?

一篇《A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection》(一种用于基于自主无人机的视觉检测的分层智能体框架)的论文带来了希望。

这个框架将多个AI组成高效团队。这个团队里,有负责协调和发号施令的“项目经理”,也有负责具体执行的“一线员工”,它们互相配合,去完成一个复杂的任务。

这个模式在数字世界里已经取得了巨大的成功。比如,让AI团队自己写软件代码,或者帮助科学家做科学研究,都表现出了惊人的能力。它们能理解人类的自然语言指令,通过团队协作,解决非常复杂的问题。

研究人员把这个成功的团队模式,从虚拟的数字世界,搬到现实的物理世界,让它们来操控无人机:开发一个分层智能体框架,用于自主无人机视觉检测。

框架就是这样一个团队结构:

团队里有一个“头部智能体”(Head Agent),它就是那个运筹帷幄的“总指挥”。还有多个“工作智能体”(Worker Agents),每个工作智能体都是一个“一线飞行员”,专门负责控制一架无人机。

这种“一个总指挥+多个飞行员”的架构,好处非常明显。

今天我用两架无人机,明天业务需要,增加到二十架,甚至二百架,我的指挥系统完全不需要做任何结构上的改动。总指挥只需要知道自己手下有多少兵,然后根据任务动态分配就行了。

沟通效率和准确性大大提高。用户下达的指令往往是模糊的,比如“去检查一下A区的设备”。不同的人,说法可能千差万别。如果让每个飞行员都去直接理解用户,那肯定会出乱子。

现在有了“总指挥”就不一样了。它像一个翻译和标准化中心,把用户五花八门的指令,统一转换成结构清晰,标准一致的任务指令,然后再分发给下面的一线飞行员。这样,飞行员们接到的命令永远是清晰的,执行起来自然更可靠。

这种分层结构也解决了“信息过载”的问题。

研究人员定义了两种“记忆”。一种叫“会话历史”(Session History),由总指挥全程维护。从任务开始到结束,所有的用户交互,总指挥做出的所有规划决策,以及最终的任务结果,都会被完整记录下来。

另一种叫“线程历史”(Thread History),由每个一线飞行员各自维护。每个飞行员只关心自己当前负责的这个子任务。它会记录自己为了完成这个任务所做的所有思考,执行的所有动作,以及得到的结果。一旦这个子任务完成,这段“线程历史”就会被清空,以免干扰下一个任务。

这就好比总指挥拿着整个项目的蓝图,而每个飞行员只需要看懂自己负责的那一小块施工图。大家各司其职,互不干扰,效率最高。

具体来说,总指挥通过一个叫“Plan”(计划)的函数来处理用户指令。它输出的是一个结构化的指令字典,里面清清楚楚地写着给每架无人机的任务分配。内容包括:为这架无人机量身定制的步骤计划,任务完成时应该达到的预期结果,一个判断任务是否结束的标志,以及需要反馈给用户的信息。

而一线飞行员们,则通过一个迭代循环来控制自己的无人机。这个循环里,就用到了接下来要讲的核心方法。它们会不断地思考下一步该干嘛,然后调用相应的函数去执行,执行完再评估一下结果,如此往复,直到任务完成。

它们能调用的函数,称之为“工具”。最基本的无人机工具有起飞,降落,移动,旋转,拍照。这个工具箱是开放的,可以随时给它增加新工具,比如集成一个视觉语言模型(VLM),让无人机能“看懂”拍到的图像,或者集成一个YOLO模型,让它能识别特定的物体。

有了团队架构,还需要给一线飞行员们规定工作流程,也就是它们的“思考模式”。一个飞行员在接到任务后,是应该先深思熟虑再行动,还是边想边干,或者干脆直接上手?

研究人员设计了三种不同的方法,并在实验中对它们进行了对比。

第一种,是研究人员提出的新方法,叫ReActEval。它遵循一个“推理-行动-评估”的三步循环。

规划阶段,飞行员会综合分析自己当前的状态(比如坐标,朝向),总指挥下达的任务计划和预期结果,以及自己之前的操作历史。然后,它会得出一个结论:我下一步最应该执行什么操作,以及为什么。

把上一步“想”出来的操作,转换成实际的函数调用,去命令无人机执行。比如,调用“Move(forward, 5)”这个函数,让无人机向前飞5米。

ReActEval方法的精髓是评估(Evaluate)。在执行完一个动作后,飞行员会进行一次“复盘”。它会评估刚刚的动作是否成功,任务进展如何,离最终目标还有多远。然后,它会输出一个评估报告,里面包含对当前情况的分析,一个判断任务是否已经完成的“结束标志”,以及对下一步行动的建议和指导。

这个“评估”环节,就像一个内置的质检员和导航员,不断地校正航向,确保任务在正确的轨道上推进。

第二种,是作为对比的ReAct方法。它遵循一个“推理-行动”的两步循环。

它的推理和行动步骤和ReActEval很像,但它省略了独立的“评估”环节。它也会判断任务是否结束,但这个判断是在“推理”步骤里完成的。相比之下,它更像一个敏捷的执行者,思考完就做,做完马上思考下一步,节奏更快。

第三种,是最简单的Act方法。

它把推理和评估环节都去掉了,接到总指挥的计划后,直接开始调用函数执行操作。研究人员对它做了点改造,给了它一个“终止”函数,让它在需要的时候也能停下来。同时,在它的提示里,也包含了来自总指挥的计划和预期结果,让它不至于完全“无脑”执行。

这三种方法,代表了从深思熟虑到简单直接的三种不同层次的“智能”。

研究人员设计了一场复杂的实验。

他们搭建了一个模拟环境,可以精确地追踪每架无人机的三维坐标,朝向,相机角度等所有状态。对无人机的每个动作都定义了精确的状态更新规则,比如“起飞”指令会将无人机的高度设置为1米,“旋转”指令会更新它的航向角等等。这个框架既可以用于模拟,也可以无缝对接到真实的无人机上。

实验中,用了两架无人机,并分别给它们装上四种(GPT-4.1,GPT-4.1 Nano,o4-mini 和 o3)大脑。

让这四种“大脑”分别与三种“思考模式”(ReActEval,ReAct,Act)进行组合,形成12支参赛队伍。

然后,给它们设置了三个不同难度的关卡。

简单任务:一到两个步骤就能完成的指令,比如让两架无人机都起飞,或者降落。中等任务:需要执行一系列明确的多步骤指令,考验的是它们执行协调长序列命令的能力。困难任务:这是真正的挑战,模拟复杂的现实检测场景。比如,下达一个模糊的指令:“用两架无人机,拍下这个房间每个角落的照片,每架负责两个角落。” 这就需要无人机自己去规划路径,分析场景,甚至调用视觉工具来理解自己看到了什么。

用两个指标来评判它们的表现:任务完成率和执行时间。

对于简单和中等任务,由于动作序列是确定的,直接计算它们正确执行的函数调用次数。比如“让两架无人机都起飞”这个任务,需要调用两次起飞函数,全部正确执行就得2分。

对于困难任务,由于完成的方式可能有很多种,不再计较具体的函数调用,而是看它们是否完成了更高级别的子任务。比如前面那个拍角落的任务,总共4个角落,每成功拍到一个角落就得1分,总分4分。

评分过程非常严格,必须是按正确的顺序,在正确的上下文中执行了正确的操作才得分。一旦出错,后面的即使做对了也不再计分。

好了,一切准备就绪。比赛开始。

实验结果,特别是任务完成率,出现了一个让所有人都始料未及的现象:随着模型能力的增强,不同方法之间的性能发生了彻底的反转。

不同模型和难度级别的性能比较。Overall列显示所有复杂度级别的准确率。

当ReActEval搭配最弱的“敏捷大脑”(GPT-4.1 Nano)时,在中等难度任务中,它的表现是所有组合里最差的,36个操作只做对了13个。

但是,当给它换上更强大的“大脑”(GPT-4.1,o4-mini,o3)后,它立刻脱胎换骨,成为了表现最好的方法,稳定地做对了34个操作,在困难任务中也取得了最高分。

反观最简单的Act。它的表现恰恰相反。它在搭配最弱的“大脑”时,表现居然是最好的(21/36)。可随着“大脑”越来越聪明,它的性能提升却非常有限,最终被ReActEval远远甩在身后。

这个惊人的反转告诉我们:一个方法的好坏,不是绝对的,它从根本上取决于执行这个方法的大脑够不够聪明。

ReActEval方法里额外的“推理”和“评估”步骤,对于一个能力不足的模型来说,非但不是帮助,反而是一种负担。它就像一个学渣,你让他多思考,多复盘,他反而会因为自己糟糕的逻辑能力,在错误的道路上越走越远,错上加错。

研究人员从实验记录里找到了一个绝佳的例子。有一个任务是让无人机向前移动4米。

当使用GPT-4.1 Nano这个“敏捷大脑”时,ReActEval方法在第一步“推理”时正确地理解了任务,但在将其转换为坐标时犯了致命错误,把“向前4米”,错误地理解成了“x轴移动4米”。这个初始错误,在后续的“评估”环节中非但没有被纠正,反而被不断地放大,导致了一系列错误的纠正操作,最终任务失败。

而换上o4-mini这个更强的“大脑”后,它在整个思考链条中都准确地维持了正确的坐标计算。这清晰地表明,只有当模型的能力达到一定阈值时,这种结构化的、复杂的思考方法才能真正发挥出它的威力。

另一个有趣的发现是,任务的复杂度,决定了方法的选择是否重要。

在简单任务中,所有12支队伍的表现都近乎完美。这说明,对于“起飞”,“降落”这种简单任务,你用什么方法,用什么模型,根本不重要,大家都能搞定。

但一旦任务变得复杂,差距就立刻显现出来了。在中等和困难任务中,不同方法和模型的组合,表现出了天壤之别。这恰恰说明了像ReActEval这样的结构化推理方法的价值所在。它提供了一个系统性的框架来管理多步骤的复杂决策,而这种能力,在任务难度增加时,变得至关重要。

对失败的案例进行分析:

结果发现,ReActEval方法显著减少了“不正确的函数调用”和“不必要的重复函数调用”这两类低级错误。这要归功于它那个关键的“评估”步骤,系统性的复盘确实能有效避免犯错,或者在犯错后及时纠正。

但是,有一种失败模式,在所有方法中都普遍存在,那就是“提前停止”。模型经常在任务还没有完全完成时,就自己认为已经完成了,然后终止了任务。这似乎暗示,这是底层大语言模型自身固有的一个缺陷。

你可能会觉得,ReActEval又是推理又是评估,肯定比Act要慢得多。

但结果再次出乎意料。方法之间的执行时间差异微乎其微。真正决定执行时间的,是“大脑”的类型和大小,而不是“思考模式”的复杂性。

更强大,更聪明的模型,需要更长的“思考”时间。这个发现在实际应用中至关重要,它告诉我们,在对延迟敏感的应用中,选择一个合适大小的模型,远比纠结于用哪种推理方法更重要。

研究结果表明,不是越复杂的推理方法就一定越好。

最佳的策略,应该是将推理方法与任务的复杂度,以及可用的计算资源进行匹配,而不是盲目地追求最复杂的框架。

当然,研究人员承认,这个研究的一切都还停留在模拟环境中。

他们进行了初步的真实世界测试,发现物理世界的复杂性,比如传感器噪声,通信延迟,会显著增加任务的难度。模拟和现实之间存在巨大的鸿沟。模型很难将高级的目标,转换成物理导航所需要的精确的,低级的控制指令序列。

这为未来的研究指明了几个有趣的方向。

一个方向是开发混合系统。让大语言模型(LLM)去当“总指挥”,负责高级的战略规划,而把底层的飞行控制,交给传统的,更可靠的控制系统来执行。AI负责思考“去哪里”,传统控制系统负责解决“怎么去”。

另一个方向是开发混合能力的智能体。让一个强大的模型,比如o3,来负责最需要智慧的“推理”和“评估”步骤,而让一个更小,更快的模型,来执行相对简单的“行动”步骤。

更进一步,可以研究自适应智能体系统。这个系统可以先评估一下任务的复杂度,然后动态地选择最合适的思考模式。遇到简单任务,就用Act模式,高效完成。遇到复杂任务,再切换到“三思而后行”的ReActEval模式,确保成功率。

这些方向共同指向了一个自适应,混合系统的未来。

参考资料:

来源:不秃头程序员

相关推荐