论文揭秘：大模型加持无人机分层框架，实现自主规划！

摘要：它们或者严格按照人类预设好的航线飞行，不能随机应变，遇到一点意外情况就出问题。或者就得靠一个技术娴熟的飞手在后面实时遥控，这不仅成本高，而且飞手的反应和判断力成了整个系统的瓶颈。

AI，为那些危险又重要的工业检测带来了新可能。

化工厂里密布的管道，或是高耸入云的电力设施，是现代工业的心脏。我们需要定期派人去检查，看看仪表读数是否正常，管道有无泄漏，设备有无损坏。

这些工作，辛苦且危险。人工作业安全风险高，人的生理极限也决定了检查不可能做到全天候，无死角。

于是，无人机检测应运而生。

但目前市面上的所谓“智能”无人机，大多还是个“遥控玩具”。

它们或者严格按照人类预设好的航线飞行，不能随机应变，遇到一点意外情况就出问题。或者就得靠一个技术娴熟的飞手在后面实时遥控，这不仅成本高，而且飞手的反应和判断力成了整个系统的瓶颈。

现在的无人机检测系统，在任务的广度（比如换个新工厂就得重新编程），任务的复杂性，以及同时部署无人机的数量这三个方面，都存在天花板。

我们能不能让无人机群自己“思考”，自己“做决定”，并协同完成任务呢？

一篇《A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection》（一种用于基于自主无人机的视觉检测的分层智能体框架）的论文带来了希望。

这个框架将多个AI组成高效团队。这个团队里，有负责协调和发号施令的“项目经理”，也有负责具体执行的“一线员工”，它们互相配合，去完成一个复杂的任务。

这个模式在数字世界里已经取得了巨大的成功。比如，让AI团队自己写软件代码，或者帮助科学家做科学研究，都表现出了惊人的能力。它们能理解人类的自然语言指令，通过团队协作，解决非常复杂的问题。

研究人员把这个成功的团队模式，从虚拟的数字世界，搬到现实的物理世界，让它们来操控无人机：开发一个分层智能体框架，用于自主无人机视觉检测。

框架就是这样一个团队结构：

团队里有一个“头部智能体”（Head Agent），它就是那个运筹帷幄的“总指挥”。还有多个“工作智能体”（Worker Agents），每个工作智能体都是一个“一线飞行员”，专门负责控制一架无人机。

这种“一个总指挥+多个飞行员”的架构，好处非常明显。

今天我用两架无人机，明天业务需要，增加到二十架，甚至二百架，我的指挥系统完全不需要做任何结构上的改动。总指挥只需要知道自己手下有多少兵，然后根据任务动态分配就行了。

沟通效率和准确性大大提高。用户下达的指令往往是模糊的，比如“去检查一下A区的设备”。不同的人，说法可能千差万别。如果让每个飞行员都去直接理解用户，那肯定会出乱子。

现在有了“总指挥”就不一样了。它像一个翻译和标准化中心，把用户五花八门的指令，统一转换成结构清晰，标准一致的任务指令，然后再分发给下面的一线飞行员。这样，飞行员们接到的命令永远是清晰的，执行起来自然更可靠。

这种分层结构也解决了“信息过载”的问题。

研究人员定义了两种“记忆”。一种叫“会话历史”（Session History），由总指挥全程维护。从任务开始到结束，所有的用户交互，总指挥做出的所有规划决策，以及最终的任务结果，都会被完整记录下来。

另一种叫“线程历史”（Thread History），由每个一线飞行员各自维护。每个飞行员只关心自己当前负责的这个子任务。它会记录自己为了完成这个任务所做的所有思考，执行的所有动作，以及得到的结果。一旦这个子任务完成，这段“线程历史”就会被清空，以免干扰下一个任务。

这就好比总指挥拿着整个项目的蓝图，而每个飞行员只需要看懂自己负责的那一小块施工图。大家各司其职，互不干扰，效率最高。

具体来说，总指挥通过一个叫“Plan”（计划）的函数来处理用户指令。它输出的是一个结构化的指令字典，里面清清楚楚地写着给每架无人机的任务分配。内容包括：为这架无人机量身定制的步骤计划，任务完成时应该达到的预期结果，一个判断任务是否结束的标志，以及需要反馈给用户的信息。

而一线飞行员们，则通过一个迭代循环来控制自己的无人机。这个循环里，就用到了接下来要讲的核心方法。它们会不断地思考下一步该干嘛，然后调用相应的函数去执行，执行完再评估一下结果，如此往复，直到任务完成。

它们能调用的函数，称之为“工具”。最基本的无人机工具有起飞，降落，移动，旋转，拍照。这个工具箱是开放的，可以随时给它增加新工具，比如集成一个视觉语言模型（VLM），让无人机能“看懂”拍到的图像，或者集成一个YOLO模型，让它能识别特定的物体。

有了团队架构，还需要给一线飞行员们规定工作流程，也就是它们的“思考模式”。一个飞行员在接到任务后，是应该先深思熟虑再行动，还是边想边干，或者干脆直接上手？

研究人员设计了三种不同的方法，并在实验中对它们进行了对比。

第一种，是研究人员提出的新方法，叫ReActEval。它遵循一个“推理-行动-评估”的三步循环。

规划阶段，飞行员会综合分析自己当前的状态（比如坐标，朝向），总指挥下达的任务计划和预期结果，以及自己之前的操作历史。然后，它会得出一个结论：我下一步最应该执行什么操作，以及为什么。

把上一步“想”出来的操作，转换成实际的函数调用，去命令无人机执行。比如，调用“Move(forward, 5)”这个函数，让无人机向前飞5米。

ReActEval方法的精髓是评估（Evaluate）。在执行完一个动作后，飞行员会进行一次“复盘”。它会评估刚刚的动作是否成功，任务进展如何，离最终目标还有多远。然后，它会输出一个评估报告，里面包含对当前情况的分析，一个判断任务是否已经完成的“结束标志”，以及对下一步行动的建议和指导。

这个“评估”环节，就像一个内置的质检员和导航员，不断地校正航向，确保任务在正确的轨道上推进。

第二种，是作为对比的ReAct方法。它遵循一个“推理-行动”的两步循环。

它的推理和行动步骤和ReActEval很像，但它省略了独立的“评估”环节。它也会判断任务是否结束，但这个判断是在“推理”步骤里完成的。相比之下，它更像一个敏捷的执行者，思考完就做，做完马上思考下一步，节奏更快。

第三种，是最简单的Act方法。

它把推理和评估环节都去掉了，接到总指挥的计划后，直接开始调用函数执行操作。研究人员对它做了点改造，给了它一个“终止”函数，让它在需要的时候也能停下来。同时，在它的提示里，也包含了来自总指挥的计划和预期结果，让它不至于完全“无脑”执行。

这三种方法，代表了从深思熟虑到简单直接的三种不同层次的“智能”。

研究人员设计了一场复杂的实验。

他们搭建了一个模拟环境，可以精确地追踪每架无人机的三维坐标，朝向，相机角度等所有状态。对无人机的每个动作都定义了精确的状态更新规则，比如“起飞”指令会将无人机的高度设置为1米，“旋转”指令会更新它的航向角等等。这个框架既可以用于模拟，也可以无缝对接到真实的无人机上。

实验中，用了两架无人机，并分别给它们装上四种（GPT-4.1，GPT-4.1 Nano，o4-mini 和 o3）大脑。

让这四种“大脑”分别与三种“思考模式”（ReActEval，ReAct，Act）进行组合，形成12支参赛队伍。

然后，给它们设置了三个不同难度的关卡。

简单任务：一到两个步骤就能完成的指令，比如让两架无人机都起飞，或者降落。中等任务：需要执行一系列明确的多步骤指令，考验的是它们执行协调长序列命令的能力。困难任务：这是真正的挑战，模拟复杂的现实检测场景。比如，下达一个模糊的指令：“用两架无人机，拍下这个房间每个角落的照片，每架负责两个角落。” 这就需要无人机自己去规划路径，分析场景，甚至调用视觉工具来理解自己看到了什么。

用两个指标来评判它们的表现：任务完成率和执行时间。

对于简单和中等任务，由于动作序列是确定的，直接计算它们正确执行的函数调用次数。比如“让两架无人机都起飞”这个任务，需要调用两次起飞函数，全部正确执行就得2分。

对于困难任务，由于完成的方式可能有很多种，不再计较具体的函数调用，而是看它们是否完成了更高级别的子任务。比如前面那个拍角落的任务，总共4个角落，每成功拍到一个角落就得1分，总分4分。

评分过程非常严格，必须是按正确的顺序，在正确的上下文中执行了正确的操作才得分。一旦出错，后面的即使做对了也不再计分。

好了，一切准备就绪。比赛开始。

实验结果，特别是任务完成率，出现了一个让所有人都始料未及的现象：随着模型能力的增强，不同方法之间的性能发生了彻底的反转。

不同模型和难度级别的性能比较。Overall列显示所有复杂度级别的准确率。

当ReActEval搭配最弱的“敏捷大脑”（GPT-4.1 Nano）时，在中等难度任务中，它的表现是所有组合里最差的，36个操作只做对了13个。

但是，当给它换上更强大的“大脑”（GPT-4.1，o4-mini，o3）后，它立刻脱胎换骨，成为了表现最好的方法，稳定地做对了34个操作，在困难任务中也取得了最高分。

反观最简单的Act。它的表现恰恰相反。它在搭配最弱的“大脑”时，表现居然是最好的（21/36）。可随着“大脑”越来越聪明，它的性能提升却非常有限，最终被ReActEval远远甩在身后。

这个惊人的反转告诉我们：一个方法的好坏，不是绝对的，它从根本上取决于执行这个方法的大脑够不够聪明。

ReActEval方法里额外的“推理”和“评估”步骤，对于一个能力不足的模型来说，非但不是帮助，反而是一种负担。它就像一个学渣，你让他多思考，多复盘，他反而会因为自己糟糕的逻辑能力，在错误的道路上越走越远，错上加错。

研究人员从实验记录里找到了一个绝佳的例子。有一个任务是让无人机向前移动4米。

当使用GPT-4.1 Nano这个“敏捷大脑”时，ReActEval方法在第一步“推理”时正确地理解了任务，但在将其转换为坐标时犯了致命错误，把“向前4米”，错误地理解成了“x轴移动4米”。这个初始错误，在后续的“评估”环节中非但没有被纠正，反而被不断地放大，导致了一系列错误的纠正操作，最终任务失败。

而换上o4-mini这个更强的“大脑”后，它在整个思考链条中都准确地维持了正确的坐标计算。这清晰地表明，只有当模型的能力达到一定阈值时，这种结构化的、复杂的思考方法才能真正发挥出它的威力。

另一个有趣的发现是，任务的复杂度，决定了方法的选择是否重要。

在简单任务中，所有12支队伍的表现都近乎完美。这说明，对于“起飞”，“降落”这种简单任务，你用什么方法，用什么模型，根本不重要，大家都能搞定。

但一旦任务变得复杂，差距就立刻显现出来了。在中等和困难任务中，不同方法和模型的组合，表现出了天壤之别。这恰恰说明了像ReActEval这样的结构化推理方法的价值所在。它提供了一个系统性的框架来管理多步骤的复杂决策，而这种能力，在任务难度增加时，变得至关重要。

对失败的案例进行分析：

结果发现，ReActEval方法显著减少了“不正确的函数调用”和“不必要的重复函数调用”这两类低级错误。这要归功于它那个关键的“评估”步骤，系统性的复盘确实能有效避免犯错，或者在犯错后及时纠正。

但是，有一种失败模式，在所有方法中都普遍存在，那就是“提前停止”。模型经常在任务还没有完全完成时，就自己认为已经完成了，然后终止了任务。这似乎暗示，这是底层大语言模型自身固有的一个缺陷。

你可能会觉得，ReActEval又是推理又是评估，肯定比Act要慢得多。

但结果再次出乎意料。方法之间的执行时间差异微乎其微。真正决定执行时间的，是“大脑”的类型和大小，而不是“思考模式”的复杂性。

更强大，更聪明的模型，需要更长的“思考”时间。这个发现在实际应用中至关重要，它告诉我们，在对延迟敏感的应用中，选择一个合适大小的模型，远比纠结于用哪种推理方法更重要。

研究结果表明，不是越复杂的推理方法就一定越好。

最佳的策略，应该是将推理方法与任务的复杂度，以及可用的计算资源进行匹配，而不是盲目地追求最复杂的框架。

当然，研究人员承认，这个研究的一切都还停留在模拟环境中。

他们进行了初步的真实世界测试，发现物理世界的复杂性，比如传感器噪声，通信延迟，会显著增加任务的难度。模拟和现实之间存在巨大的鸿沟。模型很难将高级的目标，转换成物理导航所需要的精确的，低级的控制指令序列。

这为未来的研究指明了几个有趣的方向。

一个方向是开发混合系统。让大语言模型（LLM）去当“总指挥”，负责高级的战略规划，而把底层的飞行控制，交给传统的，更可靠的控制系统来执行。AI负责思考“去哪里”，传统控制系统负责解决“怎么去”。

另一个方向是开发混合能力的智能体。让一个强大的模型，比如o3，来负责最需要智慧的“推理”和“评估”步骤，而让一个更小，更快的模型，来执行相对简单的“行动”步骤。

更进一步，可以研究自适应智能体系统。这个系统可以先评估一下任务的复杂度，然后动态地选择最合适的思考模式。遇到简单任务，就用Act模式，高效完成。遇到复杂任务，再切换到“三思而后行”的ReActEval模式，确保成功率。

这些方向共同指向了一个自适应，混合系统的未来。

参考资料：

来源：不秃头程序员

标签：模型论文无人机自主规划

本文地址：http://news.43b.com.cn/a/1509508.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐