摘要:多智能体系统虽被视为 AI 发展新方向,但面临角色混乱、沟通障碍、验收漏洞等难题。这些问题如同人类团队管理困境,反映出技术在追求自动化过程中,如何实现高效协作与质量控制的矛盾,亟待有效管理框架来破解。
多智能体系统虽被视为 AI 发展新方向,但面临角色混乱、沟通障碍、验收漏洞等难题。这些问题如同人类团队管理困境,反映出技术在追求自动化过程中,如何实现高效协作与质量控制的矛盾,亟待有效管理框架来破解。
AI领域比较火的几个词,我们先大概走马灯一下:
RAG(检索增强生成)
之前针对RAG这块有介绍,感兴趣的可以看一下《万字详解:RAG研究与销售助手实战应用》。今天它不是主角!不做详述了…
World Model(世界模型)
就是用生成式大模型直接“想象”出可交互的 3D 虚拟环境,供 AI 或人类在其中训练、测试。被视为多模态大模型的下一个阶段,比如谷歌 DeepMind Genie 2、英伟达 Cosmos、李飞飞 World Labs ……未来可能会与具身智能结合,为机器人、自动驾驶提供低成本仿真。
Embodied AI(具身智能)
可以理解为把大模型装进机器人、无人车、机械臂等物理载体,让 AI 在真实世界里“长身体”。硬件成本下降、仿真-到-真实的迁移技术提升,让实验室里的 demo 快速走向小规模商用。AI+硬件会是下一步的趋势,尤其是今年WAIC大会展示的各种机器人,有的奇奇怪怪的,比如搏击机器人,我也不知道是要干啥,感觉我能打10个。但有的我是真想要……
Nano-Banana
(这个并不是学术圈里的宏观概念,而是 2025 年 8 月刚冒头的一款超高速 AI 图像编辑模型。一致性碾压一众生图模型包括生图皇帝Flux Kontext。不过最近确实太火了,我想提一嘴)
🌟 Multi-Agent System(多智能体系统)上主角!就是多个单Agent协作。把5 个专门干活的“单Agent”——文案、主图、修图、布局、测试——像设计工作室里的小团队一样放在同一张云桌面上。用户一句需求丢进来,它们按顺序或并行开工,几分钟就交出一张可直接印刷的海报。
那单Agent和多Agent这块,我在去年七月份就有提到过这个概念。其实多Agent这个概念很早就有了,但是为什么最近开始频频被提起,主要是在25年6月的时候,Anthropic发的一篇技术报告,就是Claude 模型的那家公司。比较难啃,但是可以用AI辅助总结下去“读”一下这篇文章,可以非常专业且清晰的告诉你如何构建一个多智能体研究系统!建议收藏拜读!!!
从“单Agent”到“多Agent”在聊多Agent之前,我还是要得先说明白,什么是Agent?
Agent与LLM的区别
小时候都玩过乐高积木吧?大语言模型,比如GPT4,就像是一大堆乐高积木,能力超强,但它自己不会动,你得告诉它搭个啥,它才给你搭。而AI Agent,就像是给这堆积木配上了一个聪明的大脑和灵活的手脚。
Agent =LLM+memory+planning skills+tool use
简单说,传统的聊天AI是被动回答,你问一句,它答一句。而AI Agent是主动干活,你给它一个目标,它会自己想办法、找工具、一步步把事儿给办了。它是一个能感知环境、做出决策、并采取行动的数字员工。
ok,那Agent如何动手呢?我们举一个🌰:
用户问:“告诉我今天广州市的天气,并为其画幅图”
Agent会先去调用天气api(amap_weather)去查天气,然后会调用生图api(image_gen)来为用户画幅图。
市面上几大Agent制作平台
ok,我们大概知道Agent如何动手了,那我们能在哪儿动手做一个Agent吗?提前说一下,剩的看完了一整篇还不知道在哪儿做Agent,那就废了。
包括还有Dify、N8N等工具,不过相对来说这两个对新手来说门槛较高。这里就不展开说了,推荐字节的Coze,上手更快一些。
单Agent vs. 多Agent
好,既然单个Agent已经这么牛了,为啥还要搞多Agent系统呢?这不是多此一举吗?
这个问题问到点子上了。一开始我也这么想,直到我看到了Anthropic(就是开发Claude的那个公司)的一份研究报告。他们举了个例子:
任务:“列出标普500指数中,所有信息技术类公司的董事会成员。”
搜索“标普500信息技术类公司名单”。拿到名单后,一个一个地去搜索:“A公司的董事会成员是谁?”找到A公司的,再去找B公司的……这是一个线性的过程,效率低,而且很容易因为某个环节出错就卡住。就像一个员工,能力再强,也只能一件一件地处理任务。
而多智能体系统的玩法完全不同:
总指挥Agent(主控智能体)接到任务,立即进行拆解:“这个任务需要先找到公司名单,然后再分别查每个公司的董事会。OK,我需要10个帮手!”它会立刻“召唤”出10个干活的Agent(子智能体),给它们分配任务:“你,去查A公司”、“你,去查B公司”……这10个子智能体并行开工,同时上网搜索。最后,还有一个质检员Agent(引用助手),负责把所有子智能体找回来的信息进行汇总、核对,并附上引用来源。Anthropic的数据显示,多智能体系统完成这类任务的成功率,比单智能体提升了90%!
所以,多智能体的核心优势在于:分工与协作。就像一个真正的团队,通过明确的角色分工和并行处理,来解决单个个体难以高效完成的复杂问题。它能够把一个复杂任务,变成了一个可协作、可迭代、可扩展的任务网络。
拆解主流多 Agent 框架多Agent系统这个概念火了之后,各种框架和产品也如雨后春笋般冒了出来。要说多Agent系统最先落地的领域,软件开发绝对是TOP 1。毕竟,程序员们最懂“分工协作”的重要性了。其中,MetaGPT和ChatDev是必须要说一嘴的。
软件开发
MetaGPT
MetaGPT的思路特别有意思,它不只是让AI写代码,而是直接在AI世界里复刻了一个完整的软件公司。你只需要给它一句需求,比如“给我做一个2048游戏”,它内部的AI员工们就开始忙活了:
AI产品经理:开始写产品需求文档(PRD),进行竞品分析。AI架构师:根据PRD设计系统架构,画出流程图和API接口。AI项目经理:把任务拆解,分配给工程师。AI工程师:吭哧吭哧开始写代码。AI测试工程师:对代码进行测试和审查。这套流程下来,它不仅能交付代码,还能产出配套的需求文档、设计文档等,主打tm一个专业!它的核心理念是“代码 = ”,把SOP编码到Agent的行为里,让AI协作得有章法,减少犯错。MetaGPT在处理复杂软件项目时,完成率和效率都相当惊人。
ChatDev
ChatDev同样是模拟一个虚拟软件公司,但它的协作模式更像经典的“瀑布模型”。任务从设计、编码、测试到文档,一步步流转。
每个阶段由不同的Agent通过对话来协作完成。比如在编码阶段,“程序员Agent”和“代码审查员Agent”会进行多轮对话,讨论代码实现和潜在的bug。
为了防止AI“一本正经地胡说八道”(也就是代码幻觉),ChatDev还引入了“思维指令”机制,让Agent在不确定的时候可以相互提问和解释,从而更精准地定位和修复问题。
MetaGPT和ChatDev都专注于软件开发,通过模拟真实世界的团队协作流程,让多Agent系统能够高效、高质量地完成复杂的编程任务。
它们最大的区别在于协作范式:
MetaGPT更像基于SOP的流水线;
ChatDev更像基于对话的瀑布流。
商业产品
除了开源框架,市面上也涌现出了一批将多Agent理念产品化的先行者。尤其是Manus当时PR的时候,基本上都炸了!
Anthropic的多智能体系统
如果说前面的框架各有侧重,那Anthropic的Research系统可以说是多Agent协作的教科书级范例。它采用的是经典的“协调者-工作者”(Coordinator-Worker)模式。
这支“虚拟研究团队”的角色分工极其明确:
主控智能体(LeadResearcher):团队大脑,负责理解用户需求,制定研究策略,并将大任务拆解成多个子任务。子智能体(Subagent):研究员,接收主控分配的具体任务,独立进行网络搜索、信息筛选和初步总结。引用助手(CitationAgent):事实核查员,在所有研究完成后,负责核对内容与原始来源,确保所有结论都有据可查。记忆系统(Memory):团队的共享文档,用于在长任务中保存中间计划和结果,防止上下文丢失。工具集(Toolsets):团队的装备库,每个Agent都知道什么任务该用什么工具。这套系统的强大之处不仅在于分工,更在于其提示词工程。Anthropic不是简单地给Agent下命令,而是教会了它们一套“团队协作的艺术”,比如:
不重复造轮子:每个子任务有唯一ID,Agent只干自己的活。懂得自我评估:如果搜索结果质量差,会选择再次搜索或报告失败,而不是硬着头皮交差。预算控制:每个任务有搜索次数上限,防止陷入死循环。先广后深:先用通用关键词摸清大概,再逐步缩小范围。可以说,Anthropic把人类优秀研究员的工作方法论,变成了一套可执行的提示词策略,这才是多Agent系统能发挥出1+1>2效果的关键。真的非常推荐大家去看看这篇报告!
智能海报项目拆解理论说了这么多,大家可能还是有点云里雾里。下面来给大家实战拆解一下,多Agent系统到底是怎么干活的。
项目背景
传统海报制作高度依赖人工:文案、主图、模板分别由不同角色产出,再通过“拼图”式合图完成。存在以下致命缺口:
规模缺口
• 大促/日常营销每天需要上万张不同主题、不同商品的海报,设计师人力只能产出几百张,缺口 10 倍以上。
• 商品上新节奏快,人工来不及做图,导致“货已上架、图还没出”,流量白白流失。
时效缺口
• 热点、秒杀、直播切片等场景要求“分钟级”出图,人工最快也要小时级。
• 跨部门反复改文案、改图、改模板,导致一张海报来回 3~5 版才能定稿,错过流量高峰。
结果缺口
• 人工模板风格趋同,用户产生审美疲劳,点击率持续下滑。
• 不同运营凭经验做图,缺少数据化归因,无法保证“利益点突出、氛围到位、转化可预期”。
ok,所以我们可以结合背景推出项目情况:
OK,那这时候我们明确了要针对素材GC做生产规划,在整个产品的架构中是属于原子能力层:文案GC、图片GC。
在原子能力层的建设中,文案的生成所用的底模是什么?封装的System Prompt怎么写?图片GC用的什么技术方案?底模+lora微调,还是接的第三方API?这块就不展开说了,涉及到模型选型、模型调优还有成本,巴拉巴拉的,主要也不是讲AI产品的工作,所以我们还是说回主题。
原子能力默认就绪,会再通过各领域算法模型进行图文生成+模版召回+合图的方式 来进行海报生成。
v1.0设计方案
通过图 、 文 及 模版 各自生成 , 通过链路上召回匹配的方式,先做图、文在模板里面的批量替换,解决运营需求量大的问题。我用Coze大概跑了一个简单的Demo,而其中{海报生成}这块我是固定了一个背景图,类比于模板的概念。
我输入的提示词是“一只小狗”,文案会进行润色再输出,而图片会根据输入的提示词进行生图prompt的扩写,最终根据画板里的变量进行替换。逻辑上和当时做的v1.0是一样的。
但是v1.0版本肯定是有问题的,或者说本身就是为了解决运营强诉求之一:量。因此,存在的问题就是也很明显。
1. 在已有有限的模版上进行仅做图文素材的替换填充, 卡片样式的多样性和新颖度不足
2. 图 、文 及 模版 各自生成 , 通过链路上召回匹配的方式, 在 多样性 上的漏斗损耗大
所以可以理解为:
一期,是为了解决运营“量”的问题,同时在生产链路的节点上,把原来的素材人工制作替换成AIGC生产;
那二期的目标,就是解决运营对于多样性的一个强诉求。提高多样性的同时兼顾业务表达是我们的目标,需要从元素上进行突破,比如文案(自训练基底+RAG)、图片(图库标签匹配召回 / LoRa模型定制化)以及模版,不能是遵循于一套标准或者是一个固定范式。
为了打破这个瓶颈,决定用多Agent系统,彻底改造生产流程,于是就有了“智能海报2.0”
v2.0设计方案
智能生卡2.0的核心思路,就是用一个多Agent数字团队,来取代过去“AI元素 + 人工模板”的模式。整个工作流依然由一个主控Agent来协调,但:
1. 素材生成模块,包括文、主体元素、背景等构成素材生成Agent;
2. 模板填充节点被一个全新的智能布局Agent所取代。
整个流程是这样的:
1)主控Agent进行任务拆解:和1.0一样,主控Agent先分析需求,然后并行启动多个“素材生产”子Agent(文案、图像生成、元素提取等)。
2)素材生产Agent并行工作:各个子Agent分头行动,产出海报所需的各种文本和视觉元素。
3)智能布局Agent:这是2.0版本的灵魂所在。当所有素材都准备好后,它们不会被送去匹配模板,而是被统一交给“智能布局Agent”。这个Agent是团队里的“首席设计师”,它内部集成了三大核心模型:
布局模型:这个模型学习了海量优秀的设计案例。它会根据收到的素材数量和类型(比如1个主标题、3个卖点、1个Logo),动态地生成一个美观、专业的布局结构。这背后需要一个非常精细的模板标签体系,让模型能理解“主标题应该放哪”、“行动点按钮长啥样”。
背景图模型:它会智能地对生成的背景图进行优化,比如扩展、裁剪、或者增加光影效果,使其更适合作为海报背景。
配色算法模型:它会分析背景图和Logo的主色调,然后根据色彩美学原理(如色相、明度对比),为海报上的文字、按钮等元素智能推荐一套和谐的配色方案,确保信息清晰可读,视觉效果统一。
4)最终输出:经过智能布局Agent的精心编排,一张布局合理、配色协调、信息突出、且完全原创的营销海报就诞生了!!!
具体的case我没办法复现,我们就直接说对比吧:
智能海报1.0(模板填充):布局生硬,字体颜色靠规则写死,缺乏设计感,整体看起来就像是“素材的简单堆砌”智能海报2.0(智能创作):字体字色更统一,按钮、文案的底衬颜色搭配更协调,背景和前景的融合度更高,整体视觉效果和谐且专业,接近设计师的水准。过引入真正的多Agent协作,特别是核心的“AutoLayout Agent”,智能海报2.0实现了从内容理解、创意生成到布局配色的端到端自动化,解决了传统方法效率低、效果差的核心痛点。
但其实这块也并不是纯自研,是基于开源框架PosterLLaVa & PosterLLama 。在GitHub上也可以搜到的,感兴趣的同学可以去看看。
PosterLLaVa
该模型提出了一个统一的框架,用于自动图形布局生成,利用多模态大语言模型适应多样化的设计任务。与其他方法不同,PosterLLaVa采用结构化文本(JSON格式)和视觉指令调整,在特定的视觉和文本约束条件下生成布局,包括用户定义的自然语言规范。大量实验表明,PosterLLaVa在公共的多模态布局生成基准测试中取得了最先进的性能。此外,针对现有数据集在捕捉现实世界图形设计复杂性方面的局限性,PosterLLaVa提出了两个新的数据集,用于更具挑战性的任务(用户约束生成和复杂海报),进一步验证了模型在实际环境中的实用性。
PosterLLama
该模型通过将布局元素转换为HTML代码,利用语言模型中丰富的设计知识,生成视觉和文本内容相协调的布局。此外,PosterLlama引入了一种基于深度的海报增强策略,以提高模型的鲁棒性,确保在数据有限的情况下生成的布局既具有语义丰富性,又具备视觉吸引力。该模型在多个基准测试中表现出色,支持多种条件下的布局生成,包括内容感知布局生成、元素条件布局生成和布局补全等。
利用大语言模型(LLM)进行海报布局生成。采用二阶段的训练方法:
在第一阶段,使用线性层作为适配器,以对齐图像编码器与LLM,同时保持其他部分不变。在第二阶段,保持视觉适配器不变,微调LLM (CodeLlaMA) 以生成布局,使用HTML格式数据集。小结聊了这么多,也要泼一盆冷水。多Agent系统虽然强大,但远非完美。
可以看看《Why Do Multi-Agent LLM Systems Fail?》的论文就指出了几个常见的“坑”:
角色混乱:理想中,每个Agent各司其职。现实是,它们经常“越界”。比如“测试员Agent”跑去写代码,“产品经理Agent”直接把技术方案定了。这本质上还是大模型的“幻觉”问题,只是在多Agent系统里被放大了。沟通障碍:Agent之间的沟通效率低下。它们可能会在一些无关紧要的细节上反复拉扯,或者关键信息没有共享,导致整个团队被带偏。想象一下开会时,一群人都在跑题,就是那个感觉。验收漏洞:缺乏有效的验证机制。比如让Agent开发一个象棋游戏,它可能只检查了代码能跑通,但没验证游戏规则对不对。很多系统在任务还没完全达标时就草草结束,交付一个“半成品”。这些问题,和人类团队管理中的问题惊人地相似!!!
但解决方案也很朴素:加强管理和控制。
比如,通过更明确的提示词来限定Agent的职责范围,引入“交叉验证”机制让Agent互相评审,强制执行检查清单来确保交付质量。
这说明,现阶段的多Agent系统,还远没到可以完全自动化的程度。它需要的不是更少的控制,而是更细致的管理框架和思路。
脑接口还没搞定,同志仍需努力!!!接着研究吧
本文由 @小普 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图由作者提供
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
来源:人人都是产品经理