摘要:导读徐宗泽老师来自 MetaGPT ,本次分享题目为 Foundation Agent 赋能:打造灵活对齐的 AI4DA。
导读 徐宗泽老师来自 MetaGPT ,本次分享题目为 Foundation Agent 赋能:打造灵活对齐的 AI4DA。
主要介绍:
1. 当前智能体的局限性
2. Foundation Agent 对智能体的定义与探索
3. Foundation Agent 的商业化实践
4. 重新定义智能体
分享嘉宾|徐宗泽 DeepWisdom 市场VP
编辑整理|李天祥
内容校对|郭慧敏
出品社区|DataFun
01
当前智能体的局限性
1. 现有智能体的局限性
近期,智能体技术发展迅猛,但对其核心特征与真正内涵的系统性研究仍显不足。
智能体的核心概念、Foundation Agent 的必要性及其最终形态与应用场景等问题至今尚无定论,这使得智能体的发展方向亟待系统性引导。
当前智能体与 AGI 的差距仍较显著,现有智能体仍存在诸多局限。市场对智能体的认知偏差进一步加剧了开发与应用瓶颈。
2. 现有智能体的局限性举例
目前市场上的智能体主要分为两种,这两种方式各有优劣。但在实际的工程化应用中,两种方式的存在显著缺陷。
(1)预定义任务流程:通过定义 workflow 来执行任务的智能体。
通过低代码或托拉拽的方式来定义智能体并完成任务。因为自然语言才是最终的代码语言,低代码还是有学习门槛。因此这种方式对于团队\公司来说,并不能带来明显的收益。
(2)提示词工程:通过提示词来执行任务的智能体。
这种方式依赖提示词本身的复杂度。对提示词的质量业界有比较多的研究。有些企业有专门的提示词工程师岗位,负责对每个智能体的提示词进行编辑和优化。但是面向不同的环境和场景时,对提示词本身如长度、关键词等有限制。由于不同智能体对提示词的要求存在差异,业务专家在实际使用中难以针对具体智能体提出精准的问题,从而影响了交互效果。而且当业务专家提出超出智能体知识边界的问题时,若其中包含未被系统学习的专业术语,可能导致处理失败,无法达到预期效果。
02
Foundation Agent 对智能体的定义与探索
1. 行业独创的脑启发结构,类人脑模块拓宽 AI 能力边界
我们在这方面进行了大量研究并发表了多篇论文,来充实 Foundation Agent 的能力,比如在 2025 年 4 月发表了 Advances and Challenges in Foundation Agents 论文。在这篇论文中,定义了 Foundation Agent 工作的模式,技术解析以及对未来如 agent 自身的安全,应用等探讨的探讨。
总体思路是对 Foundation Agent 的技术框架,通过类人脑的模块对比进行抽象。从技术上看,人脑包含“大模型”和“智能体”两个成分的技术内容。其中“大模型”是指对知识进行压缩的能力,而“智能体”则是对多样性环境多元化复杂任务解决的技术能力,包括规划、反思、求最优解、奖励模型等。
2. Foundation Agents?定义
我们在最基础的agent架构上进行了拓展,这样能更好的展示 Foundation Agent 的工作流。整体的流程是先观察、思考,再驱使动作的执行。其中记忆作为支撑模块,支撑执行动作中工具的选择,以及 SOP 流程的生成。
我们拓展了更加精细化的内容,比如观察输入输出来自哪里,神经模块支持多模态接入。在思考能力上,除了 COT、TOT,还考虑批判性思维、元思考,以及未来求解最优解的能力等。记忆则增加考虑短记忆、长记忆、程序性记忆以及对应的组合。
3. 自我进化:持续成长的智能体
Foundation Agent 是一个可以持续成长的智能体,具备自我进化的能力。
自我进化不是传统意义上的训练,而是通过多种不同的方式,在整体任务中进行最优解求解的工作过程,也是对知识、经验理解然后应用的过程。
主要包含自主进化阶段、创新能力发展阶段、自我反思与改进,经验积累与优化,以及基础能力获取,通过相关技术来支撑对应能力的拓展。
4. Foundation Agents 多智能体协作:集体智能的涌现
我们将 5 个 Foundation agent 组成一个团队,一起为用户提供服务。这个多智能体不是黑盒,而是群聊模式。用户可以和任意的智能体对话,并观测到每个智能体的输入、输出以及思考过程、动作执行的内容。
我们参照人类岗位职能以及工具类型类比,抽象出 5 个智能体。比如文档专员,可以进行文档的编写、文档的理解以及文档的调研等。以前用户面向智能体时,需要理解和学习如何创建服务,并对智能体进行不断地调试。而具备这 5 个基本功能的智能体成为最基础的多智能体团队,可以智能地对客户需求进行理解、并完成任务编排等一系列工作。
用好智能体的前提是:
提供行业的知识,即足够的上下文,或任务相关知识;提供业务的经验库。经验库和知识库的区别是,知识库主要是行业的专业术语、行业文档知识等;而经验库则沉淀智能体需要的执行过程,任务编排需要的内容。比如对电力行业中的预测求解或汽车设计工作中的数据分析工作、飞机机身检修的步骤经验等。总之是将不同任务的分析方法、开发工具使用的经验,存储到经验库中。技术资源的接口,比如数据接口,模块接口等。场景具体的需求、数据等。准备了上述四个输入提供给智能体,智能体就能主动分析出对应的结果,并与用户进行协作。
这种方式的优势是可以无门槛的延伸。五个智能体拥有最基础的技能,而智能体最终可以覆盖什么行业、领域或者业务,是由用户提供的运作相关要素来决定。
5. Foundation Agents 的开源项目 – MG v1.0
我们对 Foundation Agent 在不同的操作系统、不同的环境进行了测试。
目前 MetaGPT 有 55k 的 star,一个开源项目 Open Miners 有 45k 的 star,一共将近 100k 的 star。这两个项目已经归纳到 Foundation Agent 的组织中。
这些论文是对 Foundation Agent 在不同领域、不同技术方向的探索。比如对自动化生成智能体工作流、原子化思考,以及对数据科学处理的开源框架等方向的探索。
6. Foundation Agents 核心能力
对准不同的核心能力,我们会有对应的论文来研究相关难题,支撑进一步提升智能体的能力,使智能体能适应不同的领域和业务场景。对未来的世界模型、智能体求最优解等技术方向,相应的论文也即将发表。
03
Foundation Agent 的商业化实践
不同于传统的业务系统或软件,使用智能体时,整体效果来源于两个部分。
智能体本身的能力。人类与智能体的交互方式。交互方式需要通过标准的产品化来体现。对于这部分能力的商业实践,我们推出 MGX 产品作为多智能体运行平台。用户可以通过 MGX 跟多智能体对话和交流,支撑比如网页开发、数据分析、深度调研等工作,甚至是 PPT 生成、通过代码剪辑视频等任务。
案例分析:国内某能源电力央企
本案例是能源电力央企的集团性项目,此项目覆盖了整个集团从生产到经营的工作。
和前面提到的案例一样,本案例首先输入需求到规划,差异点在于本案例未使用经验库。智能体使用通用方式进行任务规划,即读取数据、数据分析,然后做特征训练,输出模型建模,任务规划后执行对应的 action,最后生成可视化图。
在本案例中有个水泵效率与功率分析的场景。
这个场景分析主要分为两部分,数据分析和主体分析。数据分析主要分析数据本身有无缺失值、异常点等,主体分析则是通过数据结合业务进行业务推理,如此例中的功率分析、水力性能分析、系统效率分析。本次输出的整体分析结果是系统在中等流量条件下运行效率最高,这也是业务可以理解和应用的结果。
除了数据分析,还包括基于文档的施工进度分析。智能体通过阅读电站月报、文件、会议纪要,进行总体进度总结。总结包括哪里存在工期风险,重点要关注哪里,而且智能体会进一步进行进度分析。
04
重新定义智能体
总的来说,对于 Foundation Agent 的创新不在于技术,而是对思维方式的转变,是从 0 到 1 的过程。在过程中,首先对需求的理解和展示,然后展示规划和分析过程,最后展现结果,用户对结果进行验证。抛开传统思维方式,不需要考虑基础的 5 个智能体有什么能力,业务人员可更专注于输入前置条件和内容。另外两个核心特征是模块化的自主进化以及协作能力。
欢迎大家到数势官方网站注册账号,体验我们全球发布的产品和前面分享的案例。谢谢大家!
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk