老思维做 Agent,没戏!云厂商们又想憋大招了

B站影视 内地电影 2025-09-23 16:56 1

摘要:最近,云计算基础设施的工程师们明显感受到了 Agent 相关需求在增多:外部客户明确提出希望能更好地满足他们构建 Agent 的能力,同时内部的 Agent 产品团队也在索要更好的构建支持。

作者 | 褚杏娟

最近,云计算基础设施的工程师们明显感受到了 Agent 相关需求在增多:外部客户明确提出希望能更好地满足他们构建 Agent 的能力,同时内部的 Agent 产品团队也在索要更好的构建支持。

有机构预测,未来两年内部署 Agent 的企业数量将会翻倍。但并不是每个企业都能搭建出自己想要的应用,简单的 Chatbot 了已经不能满足企业对于智能化的需求了。随之而来的是,云计算底层技术设施的演化,大家开始探索 Agent 应用范式下的 Infra 新形态,即 Agent Infra。那从之前热议的 AI Infra 到如今的 Agent Infra,究竟是新瓶装旧酒,还是将扭转现有竞争格局的赛点?

旧研发思维做不出好 Agent

短短一两年的时间,企业落地 Agent 经历了非常快速地演化。

最早,企业 Agent 应用场景主要是客服和问答,形态就是简单的 Chatbot。接着,业内出现了工作流(Workflow)形态,即让 Agent 按照固定流程解决某些问题,主要应用于企业内部提效和信息化场景,比如审批单等重复性工作。

那个时期,大家开始偏向工作流 Agent,主要目的是企业内部信息化和提效。实际上,工作流 Agent 如今在数量上仍占很大比例,任何小企业都能自己搞一个 Workflow Agent,资源消耗量不大。这部分市场需求也被 Dify、Coze 等平台快速消化掉,这些平台面向非专业开发者,提供确定性流程的自动化,具有一定的泛化能力,但整体上偏向低代码平台。

但在今年,很多企业开始构建第三种形态,即自主性的 Agent,没有预设工作流,完全靠 Agent 自主规划和行动。例如,它可以帮用户写文档、PPT、打开浏览器、整理本地文件夹等。

这是一种通用化的解决方案,一些服务商都在积极探索,用于服务其他中小企业。还有一些大型互联网企业、头部五百强企业和 SaaS 型的 AI Native 企业都在积极推动落地。

但自主性 Agent 又与传统应用完全不同。传统应用是为毫秒级完成的、快速且无需记忆的任务而生,整个运行是确定、简单、有预期执行模式的,而 Agent 应用则恰恰相反。

当前的多数智能体应用会持续运行数分钟甚至数小时,必须记住前后步骤的上下文,以便完成多步骤或跨越历史交互任务。它们在后台基于事件与信息运行,不仅会执行任务,还会寻求帮助、推理问题和展示思考过程,甚至协作完成任务,但其工作负载极不稳定。

可以说,Agent 是一种全新的软件范式。虽然现在市面上已经有了 Manus 等通用型 Agent,但它们普遍具有不确定性、复杂性和自主性:

在一个 Agent 应用中,输入 A 可能得到 B,也可能得到 C,结果不再是确定的。为此,需要一系列工程化技术来提高确定性;

Agent 还是一个复杂系统,内部包含 Prompt、上下文、记忆、模型等多个组件,这些组件之间的关系错综复杂,通常很难确定结果的不确定性是由哪个组件引起的;

此外,Agent 是一个自主性系统,这是其核心功能之一,但也带来了许多新的安全问题。

如此不同的应用形态,意味着完全不同的研发范式,这倒逼着基础设施层进行改变。

Agentic AI 架构,图源:GoPenAI

云厂商们又“造”了新概念?

大模型爆火以来,云厂商们起初为满足企业大模型训推的需求,提出了“AI Infra”的概念。

早期 AI Infra 的本质是基于 GPU 的高性能计算(HPC)。与分布式大数据计算和微服务计算不同,分布式计算是将许多性能较差的计算机组合在一起完成任务,而 HPC 的核心是让一堆高性能的硬件发挥出最大效能。

为此,全球厂商纷纷在算力上投入巨额资金。据统计,海外头部四家云厂商资本支出合计超 3000 亿美元,同比增长超 30%。ChatGPT 发布后,AI 计算主力机型就进入了快速迭代期,从早期的 A100、A800,到后续的 H800,再到如今各类更新机型,更新非常快。

但对于现在的云厂商来说,一方面,单纯堆算力已难以构建成新的竞争优势。如今,很多新建的智算中心面临着闲置风险:虽然采购了足够的 GPU,技术条件也不错,但其在配套设施、安全性、运维能力、存储与网络方面往往需要重新建设。这不仅耗费资金和时间,也难以快速释放产品竞争力。

另一方面,随着 Agent 应用的逐渐普及,这种新应用范式不再只需要 HPC,还要求开发者更多地关注计算、网络和存储,既能向上支持更复杂的 Agent 工作负载,也可以向下优化资源调度与任务分配等。某种程度上说,Infra 的职责边界正在向“AI 应用层”延伸。

这时候,以 AWS、谷歌为代表的云厂商们纷纷开始打出“Agent Infra”牌。

当前,海外云厂商们纷纷组建了专门的 Agent Infra 团队,以独立品牌和团队运作,并打造出一套较为完整的一体化方案对外服务。比如 Google Cloud 3 月份时推出了 Vertex AI Agent Builder,AWS 7 月份推出了 Amazon Bedrock AgentCore,Microsoft Azure 则在 8 月份推出 Agent Factory 等。

再看国内,上周,在 2025 年腾讯全球数字生态大会上,腾讯集团副总裁、腾讯云总裁邱跃鹏发布 Agent Runtime 解决方案,指向 Agent 的大规模应用。这是国内云厂商首个 Agent Infra 品牌。

可以看出,国内外云厂如今不再单纯围绕大模型训推叙事了,转而以 Agent 应用为中心,开启了“Agent Infra”赛道的竞争。

Agent Infra 到底在解决什么?

国内外云厂商的 Agent Infra 功能上可能各有侧重,但其底层逻辑是相通的,核心模式可以概括为一个由运行引擎、安全沙箱、API 网关及内容管理等关键模块组成的统一基础。

这种相似性并非偶然,而是源于其共同遵循的一套从底层基础向高层应用逐级演进的构建逻辑:从运维出发,先资源后应用和开发,再到安全和智能化,由下至上,先在共性需求上形成坚固基础,然后再向差异性需求拓展。

因此,各家 Agent Infra 基本都包括:资源、运维和构建。但目前构建层高度分裂,存在数十乃至上百种框架,业内没有任何共识,需求共性依然更偏向云,例如安全工具、运维和存储等。因此,各家当下的竞争重点都放在了资源和运维层。

当前,弹性能力比以往更为重要。目前大多数 Agent 系统都基于后端 Serverless 架构实现,每个 Agent 被部署在一个独立的 Pod 或函数中。当工作流复杂、任务量较大时,系统会动态创建大量沙箱环境,每个任务分配一个隔离的执行容器。这种模式对弹性能力的要求会更高。

另外,Agent 应用的调用峰值、谷底和运行模式与之前的微服务和大数据应用有很大差异。比如数据分析类 Agent,它需要一个沙箱来完成任务,任务完成后沙箱就要立刻销毁。如果没有对应工具,用户就需要按照最高负载来囤一批机器。而云厂商弹性速度足够快的话,用户就不需要提前备货即可实时创建,节省的这部分成本可以投入到其他消耗上。

不同类型 Agent 构建成本,来源:Appinventiv

此外,Agent 对安全运行环境的要求更加显著。Agent 变成自主执行后,非常需要安全的运行环境,否则可以通过对话就可以让 Agent 执行一些危害命令。早期一些企业为了快速上线,没有特别关注安全问题,但这在实践中却是一个非常现实的严峻问题。Agent 的智能化、安全性等带给账号体系、权限体系和安全体系的变化比较大。

云厂商还试图帮助用户做记忆管理。记忆管理的最底层是记忆存储,中间层则负责从对话中提炼关键信息,并将其沉淀到之前所说的「长期记忆」之中,这一过程可称为记忆学习。记忆学习既可以在框架内部完成,也可以依托于外部机制。因此,云厂商既能够将学习能力封装为云服务产品,通过一系列配置让用户可自定义学习方式,并在后台定时执行学习任务;也可以将学习功能嵌入开发框架中实现。

用户是否选择采用云的方式进行记忆管理与学习,取决于产品是否足够易用。目前,云厂商希望通过更良好的共性抽象,将这种能力以更通用的、云的方式来帮助用户实现记忆管理和学习,避免因资源问题受限。

Agent 应用带来的改变和问题还有很多。云服务商的核心任务之一就是进一步弥合 Infra 与 AI 应用之间的鸿沟,将客户高层的业务语言,转化为底层枯燥、复杂的硬件设备所能理解和执行的指令,实现业务意图与硬件资源之间的高效对接。

云厂商们的产品竞赛开始

当前,国内有的云厂商将 Agent Infra 进行模块化拆解,同时强调行业化;有的则是主打算力和行业场景。腾讯云则倾向于让自己的业务做各种新技术、新想法的“小白鼠”,在内部运行取得不错成果后才对外服务。我们以有广泛内外部服务经验的腾讯云为例,来了解下云厂商做 Agent Infra 的产品思路。

腾讯云当前主打的是刚推出不久的 Agent Runtime 解决方案,Agent Runtime 是各类智能体开发平台的底层,目标是让企业自主构建企业级的 Agent。

具体看,Agent Runtime 集成了执行引擎、云沙箱、上下文服务、网关及安全可观测服务,为 Agent 提供运行基础。

其中,作为核心组件的云沙箱,是根据用户反馈的最大痛点而设计的。基于自研的 Cube 沙箱技术,云沙箱通过“运行时快照”、“资源预创建池化”等手段,实现了 100 毫秒的极速启动和数十万 Agent 实例同时并发,这意味着 Agent 无需等待,随时可以投入企业级规模使用。云沙箱支持 MCP、SDK 和 API 多种灵活方式,并提供全方位的安全保障,包括严格的身份权限管理和数据安全防护,以此确保每一个 Agent 都能在安全可信的环境中高效运行。

腾讯集团副总裁、腾讯云总裁邱跃鹏介绍 Agent Runtime 云沙箱

此外,执行引擎会拉起会话并进行 Serverless 会话隔离,保证用户信息的独立和私密;Agent 上下文部分则负责长期记忆管理与检索,可通过存储管理和优化检索,做好成本控制;Agent 网关支持模型服务、工具接入、流量调度和安全防护;安全可观测部分提供机密计算和日志服务,有全链路安全与可观测服务。

评判产品成功与否的关键在于是否服务了顶尖且多样化的 AI 应用,包括 AI 原生型与 AI 赋能型应用。与直接推出产品的方式相比,集团内部丰富的业务“试验田”成了腾讯云特有的打磨产品优势的重要路径。

现在做 Agent 支持时,资深的云基础设施开发者能明显感到提供的服务要比之前更贴近开发者、更贴近企业一些了。

但本质上,云厂商们现在提供的产品基本是从上个时代演进过来的,并不是用全新范式思考的。范式是用于最高效构建和服务 Agent 的,但由于 Agent 尚未像传统应用那样大规模出现,大家现在并不知道完备的 Agent Infra 范式是什么样子。换句话说,不是看不到范式,而是它本身还不存在。

因此,云厂商们虽然已经开始积极布局 Agent Infra,但现在说 Agent Infra 新开发范式已完全成型还为时尚早。

实际情况也是如此。云厂商目前推出的 Agent 构建方案还处于早期阶段。比如为提升智能化,云厂商不仅需持续优化 Agent 本身及其上下文处理能力,更依赖于一套支持数据缓存、回放和测试集管理的底层架构。这通常要求对 Agent 运行时环境进行改造,如增强沙箱数据暂存能力、网关数据劫持功能等。目前行业在这方面尚未系统推进,但这正是 Agent 持续迭代的重要基础。

当下,企业在 Agent 落地中提出了更加具体的需求,比如探索更高效的资源利用方式,实现性能与成本之间的更优平衡;引入动态的智能流量调度体系,使算力资源能够随业务需求动态分配;还有企业想要在开发阶段就融入运维与稳定性设计。这些其实属于 Agent Infra 解决范畴,但相关解决方案并未被真正使用。

不过,随着企业端的需求日益清晰且迫切,云厂商们也已形成初步共识:未来必将围绕 Agent 这一新型软件范式,构建起完整的解决方案。这标志着行业正在步入共识落地为行动的关键阶段,接下来的关键就在于产业链的紧密协作与持续迭代,最终让 Agent 应用的开发就像现在 App 开发的一样简单和成熟。

结束语

一定程度上来说,Agent Infra 的兴起是大模型技术规模化应用的必由之路,它既囊括了企业构建 Agent 时对数据、安全、可扩展性等方面的核心诉求,也为云厂商提供了新的竞争高地,谁能率先构建起完整的基础设施能力,谁就更有可能在这场 Agent 变革中赢得先机。

未来,随着智能化能力的更大规模释放,Agent Infra 还将如何演变、会给市场带来怎样的变化,我们拭目以待。

今日好文推荐

来源:InfoQ

相关推荐