Foundation Agent 赋能：打造灵活对齐的 AI4DATA 实践与价值创造

摘要：导读徐宗泽老师来自 MetaGPT ，本次分享题目为 Foundation Agent 赋能：打造灵活对齐的 AI4DA。

导读徐宗泽老师来自 MetaGPT ，本次分享题目为 Foundation Agent 赋能：打造灵活对齐的 AI4DA。

主要介绍：

1. 当前智能体的局限性

2. Foundation Agent 对智能体的定义与探索

3. Foundation Agent 的商业化实践

4. 重新定义智能体

分享嘉宾｜徐宗泽 DeepWisdom 市场VP

编辑整理｜李天祥

内容校对｜郭慧敏

出品社区｜DataFun

当前智能体的局限性

1. 现有智能体的局限性

近期，智能体技术发展迅猛，但对其核心特征与真正内涵的系统性研究仍显不足。

智能体的核心概念、Foundation Agent 的必要性及其最终形态与应用场景等问题至今尚无定论，这使得智能体的发展方向亟待系统性引导。

当前智能体与 AGI 的差距仍较显著，现有智能体仍存在诸多局限。市场对智能体的认知偏差进一步加剧了开发与应用瓶颈。

2. 现有智能体的局限性举例

目前市场上的智能体主要分为两种，这两种方式各有优劣。但在实际的工程化应用中，两种方式的存在显著缺陷。

（1）预定义任务流程：通过定义 workflow 来执行任务的智能体。

通过低代码或托拉拽的方式来定义智能体并完成任务。因为自然语言才是最终的代码语言，低代码还是有学习门槛。因此这种方式对于团队\公司来说，并不能带来明显的收益。

（2）提示词工程：通过提示词来执行任务的智能体。

这种方式依赖提示词本身的复杂度。对提示词的质量业界有比较多的研究。有些企业有专门的提示词工程师岗位，负责对每个智能体的提示词进行编辑和优化。但是面向不同的环境和场景时，对提示词本身如长度、关键词等有限制。由于不同智能体对提示词的要求存在差异，业务专家在实际使用中难以针对具体智能体提出精准的问题，从而影响了交互效果。而且当业务专家提出超出智能体知识边界的问题时，若其中包含未被系统学习的专业术语，可能导致处理失败，无法达到预期效果。

Foundation Agent 对智能体的定义与探索

1. 行业独创的脑启发结构，类人脑模块拓宽 AI 能力边界

我们在这方面进行了大量研究并发表了多篇论文，来充实 Foundation Agent 的能力，比如在 2025 年 4 月发表了 Advances and Challenges in Foundation Agents 论文。在这篇论文中，定义了 Foundation Agent 工作的模式，技术解析以及对未来如 agent 自身的安全，应用等探讨的探讨。

总体思路是对 Foundation Agent 的技术框架，通过类人脑的模块对比进行抽象。从技术上看，人脑包含“大模型”和“智能体”两个成分的技术内容。其中“大模型”是指对知识进行压缩的能力，而“智能体”则是对多样性环境多元化复杂任务解决的技术能力，包括规划、反思、求最优解、奖励模型等。

2. Foundation Agents？定义

我们在最基础的agent架构上进行了拓展，这样能更好的展示 Foundation Agent 的工作流。整体的流程是先观察、思考，再驱使动作的执行。其中记忆作为支撑模块，支撑执行动作中工具的选择，以及 SOP 流程的生成。

我们拓展了更加精细化的内容，比如观察输入输出来自哪里，神经模块支持多模态接入。在思考能力上，除了 COT、TOT，还考虑批判性思维、元思考，以及未来求解最优解的能力等。记忆则增加考虑短记忆、长记忆、程序性记忆以及对应的组合。

3. 自我进化：持续成长的智能体

Foundation Agent 是一个可以持续成长的智能体，具备自我进化的能力。

自我进化不是传统意义上的训练，而是通过多种不同的方式，在整体任务中进行最优解求解的工作过程，也是对知识、经验理解然后应用的过程。

主要包含自主进化阶段、创新能力发展阶段、自我反思与改进，经验积累与优化，以及基础能力获取，通过相关技术来支撑对应能力的拓展。

4. Foundation Agents 多智能体协作：集体智能的涌现

我们将 5 个 Foundation agent 组成一个团队，一起为用户提供服务。这个多智能体不是黑盒，而是群聊模式。用户可以和任意的智能体对话，并观测到每个智能体的输入、输出以及思考过程、动作执行的内容。

我们参照人类岗位职能以及工具类型类比，抽象出 5 个智能体。比如文档专员，可以进行文档的编写、文档的理解以及文档的调研等。以前用户面向智能体时，需要理解和学习如何创建服务，并对智能体进行不断地调试。而具备这 5 个基本功能的智能体成为最基础的多智能体团队，可以智能地对客户需求进行理解、并完成任务编排等一系列工作。

用好智能体的前提是：

提供行业的知识，即足够的上下文，或任务相关知识；提供业务的经验库。经验库和知识库的区别是，知识库主要是行业的专业术语、行业文档知识等；而经验库则沉淀智能体需要的执行过程，任务编排需要的内容。比如对电力行业中的预测求解或汽车设计工作中的数据分析工作、飞机机身检修的步骤经验等。总之是将不同任务的分析方法、开发工具使用的经验，存储到经验库中。技术资源的接口，比如数据接口，模块接口等。场景具体的需求、数据等。

准备了上述四个输入提供给智能体，智能体就能主动分析出对应的结果，并与用户进行协作。

这种方式的优势是可以无门槛的延伸。五个智能体拥有最基础的技能，而智能体最终可以覆盖什么行业、领域或者业务，是由用户提供的运作相关要素来决定。

5. Foundation Agents 的开源项目 – MG v1.0

我们对 Foundation Agent 在不同的操作系统、不同的环境进行了测试。

目前 MetaGPT 有 55k 的 star，一个开源项目 Open Miners 有 45k 的 star，一共将近 100k 的 star。这两个项目已经归纳到 Foundation Agent 的组织中。

这些论文是对 Foundation Agent 在不同领域、不同技术方向的探索。比如对自动化生成智能体工作流、原子化思考，以及对数据科学处理的开源框架等方向的探索。

6. Foundation Agents 核心能力

对准不同的核心能力，我们会有对应的论文来研究相关难题，支撑进一步提升智能体的能力，使智能体能适应不同的领域和业务场景。对未来的世界模型、智能体求最优解等技术方向，相应的论文也即将发表。

Foundation Agent 的商业化实践

不同于传统的业务系统或软件，使用智能体时，整体效果来源于两个部分。

智能体本身的能力。人类与智能体的交互方式。交互方式需要通过标准的产品化来体现。

对于这部分能力的商业实践，我们推出 MGX 产品作为多智能体运行平台。用户可以通过 MGX 跟多智能体对话和交流，支撑比如网页开发、数据分析、深度调研等工作，甚至是 PPT 生成、通过代码剪辑视频等任务。

案例分析：国内某能源电力央企

本案例是能源电力央企的集团性项目，此项目覆盖了整个集团从生产到经营的工作。

和前面提到的案例一样，本案例首先输入需求到规划，差异点在于本案例未使用经验库。智能体使用通用方式进行任务规划，即读取数据、数据分析，然后做特征训练，输出模型建模，任务规划后执行对应的 action，最后生成可视化图。

在本案例中有个水泵效率与功率分析的场景。

这个场景分析主要分为两部分，数据分析和主体分析。数据分析主要分析数据本身有无缺失值、异常点等，主体分析则是通过数据结合业务进行业务推理，如此例中的功率分析、水力性能分析、系统效率分析。本次输出的整体分析结果是系统在中等流量条件下运行效率最高，这也是业务可以理解和应用的结果。

除了数据分析，还包括基于文档的施工进度分析。智能体通过阅读电站月报、文件、会议纪要，进行总体进度总结。总结包括哪里存在工期风险，重点要关注哪里，而且智能体会进一步进行进度分析。

重新定义智能体

总的来说，对于 Foundation Agent 的创新不在于技术，而是对思维方式的转变，是从 0 到 1 的过程。在过程中，首先对需求的理解和展示，然后展示规划和分析过程，最后展现结果，用户对结果进行验证。抛开传统思维方式，不需要考虑基础的 5 个智能体有什么能力，业务人员可更专注于输入前置条件和内容。另外两个核心特征是模块化的自主进化以及协作能力。

欢迎大家到数势官方网站注册账号，体验我们全球发布的产品和前面分享的案例。谢谢大家！

以上就是本次分享的内容，谢谢大家。