开发好用的 Agent 难;如果大模型成为流量入口;英伟达的推理故事

B站影视 电影资讯 2025-04-03 14:45 1

摘要:2025 年 3 月的 AI 月报,我们开始尝试一种新形式:和知乎一起举办 “AI 脑暴” 线下活动,围绕每月一个热门 AI 主题,邀请相关学界研究者、业界从业者(研发或技术人员)、投资人等一起做闭门圆桌讨论。

2025 年 3 月全球 AI 重要趋势。

2025 年 3 月的 AI 月报,我们开始尝试一种新形式:和知乎一起举办 “AI 脑暴” 线下活动,围绕每月一个热门 AI 主题,邀请相关学界研究者、业界从业者(研发或技术人员)、投资人等一起做闭门圆桌讨论。

3 月 30 日,第一期 AI 脑暴举行,主题是 Agent,我们邀请 6 位嘉宾参加,他们来自高校、互联网公司和非营利 AI 研究机构。本期月报中,我们摘录了部分 AI 脑暴中的讨论。

本期月报,你会看到:

为什么开发 Agent 简单,但做好很难

AI 脑暴活动中 “壳重要还是模型重要” 部分讨论要点

大模型应用成为互联网流量入口的可能和 OpenAI 的平台设想

算力投资分歧引发英伟达股价持续震荡,黄仁勋讲了个推理故事

并购交易活跃,英伟达积极出手

31 家 AI 公司获得超 5000 万美元融资,垂直 AI 应用受青睐

“显微镜” 追踪大模型内部决策路径的六个案例

以下是我们第 5 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。

开发 Agent 简单,让它好用难

3 月初,通用 Agent 产品 Manus 上线第二天,就被复刻出两个开源版本——OpenManus、OWL。OpenManus 甚至只用 4 个人,花 3 个小时。

这种 “速成” 似乎暗示:做 Agent 没那么难。但从实际体验和系统复杂度来看,让 Agent “真正好用” 仍存在挑战。

大模型公司 Anthropic 与数十个团队合作开发 Agent 后,把其分成两类 [1]:

Workflows,通过预先定义好的代码路径,协调大模型和各种工具的系统。Agents,是大模型自主决定处理过程和工具使用方式的系统,能独立完成任务。

Agent 的开发看起来变得容易,是因为底层模型、框架、工具生态正在成熟。OpenAI、Anthropic 等公司提供了模型 API,调用浏览器、文件、搜索等组件已经有开源标准。Anthropic 推出的 Model Context Protocol(MCP)正在被更多公司接纳,规范了 Agent 如何与外部工具对接,OpenAI 也已加入。

但无论是 Manus 和它的各种开源变体,还是 OpenAI 开发的 Deep Research 等 Agent,问题仍层出不穷:

大模型自身局限:幻觉严重、逻辑跳跃、长文本处理能力不足、模型训练数据不够新鲜等,仍需要 RAG(检索增强生成)等技术兜底,会引入更多误差。系统设计难:难以精确引导模型行为,执行复杂任务容易陷入死循环;任务链越长,误差累积越多;公开信息有限,而且主要是为人服务,而不是为大模型服务。

Anthropic 总结过几点工具层面的改进建议 [1]:

站在模型的角度思考,一个好的工具定义通常包括使用示例、边界情况、输入格式要求等,与其他工具有明显区分。持续测试模型如何使用工具,观察模型犯的错误,然后不断迭代改进。设定 “防呆机制”(Poka-yoke),调整参数设置,降低模型出错的概率。

在大模型创业公司 Pleias 训练大模型的亚历山大·多利亚(Alexander Doria)认为 “模型就是产品”[2]:

OpenAI 的 Deep Research 并没有在 o3 模型上做产品封装,而是用强化学习的方式,在 o3 的基础训练一个新模型,让它具备搜索的能力,而不是调用外部的工具、增加提示词或者编排任务。

目前大多数 Agent 产品都是工作流(Workflows)产品,它在垂直场景有价值,但要实现重大突破,必须重新设计模型。仅专注应用开发,就像是 “用上一场战争的将军,来打下一场战争”。

在 AI 脑暴活动上,我们讨论了 “对 Agent 来说,壳重要还是模型重要”,部分要点如下:

1. Anthropic 的 CPO 迈克·克里格 (Mike Krieger) 提到的 “一方产品”“三方产品” 的观点,用来理解这个问题很有意思。Cursor 是一个成功的三方,它没有训练自己的大模型,但交互设计做得很好,构造了一个沉浸式的 Agent,满足了 Agent 与人和(生产)环境统一对齐的情况,所以三方产品也能做得很好。

2. 对于 Agent 来说,壳至少是一个起点,你能先把这个东西做出来。如果你这个壳足够有前瞻性的话,你可以等着模型变强,然后这个东西就会变得更好。

3. 像 OpenHands 刚开始就是搭一个壳,在 Roadmap 上面写要训模型,但没有优先推进。接入一个商用模型 API,好像并不影响用户用你的这套东西。他们认为,先把这个效果做好,大家能用起来,可能就足够了。重点优化这一层壳,也能看到 Claude 3.5 到 3.7 陆续发布,它的能力变得越来越强。

4. 所谓套盒,其实是在改模型的输入和输出。它们决定给基础模型提供哪些内容,有时它们会对基础模型的输出进行特定的格式化。两者实际上是正交的,当一方变得足够强大时,另一方的强弱对整体效果的影响可能不再显著。

5. Anthropic 推出的 MCP(Model Context Protocol)也在提高 Agent 产品的价值。他们写了一层协议,以某种方式将所有现有的软件转化为语言模型调用的工具。它是一个开放的生态系统,任何公司都可以做贡献,希望被大型语言模型调用的软件,可以自行接入 MCP。现有软件都可以通过 MCP 重新封装一遍。

6. 大模型预训练、后训练和 Agent 架构优化是整体工程,层层递进,能力相互关联。对 DeepSeek 及其他推理模型案例研究发现,推理模型能力离不开基础模型的持续迭代,本轮 Agent 应用的发展也源自 LLM-Based 对 RL-Based 的架构迭代。

7. 基础模型迭代仍是 Agent 性能提升的重要影响因素,基础模型迭代的速度持续放缓,一方面来自于预训练 Scaling Laws 边际效应递减。另一方面,更大规模的资源投入门槛让下一代模型的 “拥有权” 收敛到头部厂商中。

8. 大模型的发展,会推动垂直头部应用厂商升级,而非颠覆垂直应用的市场格局;在超级应用的市场争夺中,参与者需要强大生态渠道构建能力,快速整合本地生活、地图、支付等一系列通用场景建设生态,推动大模型从简单的问答与灵感提示,向日常生活中进一步渗透,改变人机交互方式。

9. 与互联网与移动互联网时期一样,大模型推动的智能应用时代,正在从通用技术的发展向应用能力提升过渡,基础模型的迭代是 Agent 应用的基石,而 Agent 应用的壁垒除了必要的工程能力外,会转向用户、场景和行业知识的理解与积累。

大模型成为流量入口会怎样

3 月,OpenAI CEO 山姆·阿尔特曼(Sam Altman)接受采访时被问 [3]:“五年后,拥有 10 亿日活、无需获客的网站和最先进的模型,什么更有价值?”

他沉吟 2 秒,选择 “10 亿日活用户的网站”。阿尔特曼设想了一个 OpenAI 成为互联网世界入口的未来:用户用 OpenAI 账户,能带着使用额度、定制模型等,自由使用任何集成了 OpenAI 模型 API 的第三方服务。

他说,“这是真正成为一个伟大平台的关键部分。”

OpenAI 的这一平台愿景,已经在其 1 月发布的 Agent 产品 Operator 中初现端倪。Operator 可以搜索网页为用户规划旅行方案、写报告、提供购物建议,与外卖平台 DoorDash、网约车平台 Uber、购物网站 Ebay 等服务打通。

Operator 还没有带来太大冲击,但大模型应用成为流量入口的趋势日益明显。Adobe Analytics 分析了美国电商零售网站超万亿次访问后发现 [4]:

2024 年 9 月以来,大模型应用带来的流量每两个月翻一番;去年末两个月,这类流量同比增长 1200%。与传统流量来源相比,从大模型应用引导的流量在网站上停留的时间增长 8%,页面浏览量增加 12%,跳出率低 23%,但是转化率低 9%,不过也在提升。

Adobe 还调研 5000 名美国消费者获知:近四成人正在使用大模型辅助购物,过半人计划今年这么做。

许多电商或本地生活应用的核心收入都是站内的推荐广告,比如亚马逊、阿里、京东、拼多多、美团等。如果访问这些网站的是 AI,而不是人,这些广告系统还能起效吗?

今年 2 月的财报会上,亚马逊 CEO 安迪·贾西(Andy Jassy)被问及 “Agent 如何影响公司电商业务”。他给出一个模棱两可的答案:“大多数零售商都会有某种与 Agent 互动的条款,我们也不会有什么不同。”

沃尔玛美国业务的首席技术官哈里·瓦苏德夫(Hari Vasudev)提出了一个应对策略:“开发自己的 Agent 与其他的 Agent 互动,推荐产品或提供更多商品信息。”

AI 脑暴活动中,一位 AI 战略研究人士认为,就算是流量入口发生变化,现有的大厂和在特定场景深耕的公司依然会有优势:

随着开源模型与闭源模型的性能持续逼近,应用厂商可以通过较低成本获得模型能力,基于行业数据有监督微调(SFT)一个业务可用的行业模型和 Agent;过去有用户、数据和 IT 能力积累的公司,在这场竞争中更具竞争优势。

算力投资分歧,英伟达的推理故事

3 月,算力投资的分歧持续,英伟达股价持续波动:月初 10 天下降 13%,随后反弹,然后又跌了下来。

这一波动背后是两个未达成共识的问题:算力消耗从训练大模型转向推理,英伟达的 GPU 还是唯一选择吗?当前算力投资是否饱和?

过去这个月,算力可能饱和甚至过剩的迹象增多:

参数更小的模型性能提升。Google 开源的 270 亿参数模型 Gemma 3 模型,在 Chatbot Arena 上得分超过老版 DeepSeek-V3(参数 6710 亿,每次回答问题激活 370 亿参数);阿里开源 320 亿参数推理模型 QwQ,得分几乎追上 R1 。据媒体报道,因为 DeepSeek、阿里、Google 等公司开源算力消耗更少但性能不差的模型,许多美国公司都削减了 AI 支出。AWS 以英伟达 H100 芯片 25% 的价格向客户销售自研 AI 芯片 Trainium 的相同算力;Google 找联发科生产自研 AI 芯片,要进一步压低 AI 芯片成本。微软 CEO 萨提亚·纳德拉之后,阿里董事局主席蔡崇信也警告,美国一些数据中心公司冒险建设新设施,称 “开始看到一些泡沫”。

但一直不愿与英伟达合作的苹果开始采购英伟达芯片,又给市场注入信心。3 月的 GTC 大会上,英伟达 CEO 黄仁勋讲了关于推理的新故事:

OpenAI 发布 o1 这样的推理模型后,AI 算力的需求超过去年英伟达预期需求的 100 倍。能够推理的 AI,将问题一步步分解,可能以几种不同的方式接近并选择最佳答案,生成的 Token 数量轻松达到百倍以上。数据中心可用的电力资源有限。相同功耗,英伟达的 B 系列 GPU,性能比 H 系列提升 25 倍。2026 年将推出的 Vera Rubin 架构芯片,会在 B 系列基础上再次大幅提升——消耗相同的电,可以生成更多 Token。推理模型需要更高的吞吐效率,才能保证用户体验。英伟达开发 Dynamo 软件,能动态调整 GPU 处理 Token 的情况。推理模型解决任务时需要大量输入信息,模型处理提示词和大量原始信息的阶段(Prefill,预填充)任务重,它可以把更多算力调配过来,保证用户体验和 GPU 的使用效率。

英伟达展示 GPU 优势。纵轴是算力服务器处理 Token 的规模,横轴是算力服务器返回 Token 的速度。它们构成 Token 的吞吐量。Token 吞吐量越高,回报就越高。

“当 B 系列 GPU 开始大量出货时,你甚至无法把 H 系列免费送出去。” 黄仁勋说。他经常用 “买得越多,省得越多” 推销英伟达先进 GPU,现在变成了 “买得越多,赚得越多”。

并非所有任务都需要推理模型解决,且更小的推理模型如 o3 mini、QwQ-32B 同样能实现良好效果。整体算下来,推理模型确实增加 Token 消耗,具体是否会到百倍以上仍有待验证。

AI 脑爆活动上,一位专注 AI 推理的研究者说:

当前看上去消耗大量算力的 Agent 应用,还有很多算力优化空间。Agent 浏览网页获取信息的时候,可能会抓取大量无用的信息作为输入,比如给网页截屏提取信息,可能与 99% 的像素是无用的,导致算力成本大幅增加。

投融资风向:并购交易变多,获得大额融资的 AI 公司聚焦垂直领域

并购活跃,头部公司扩展业务边界

3 月宣布的大额并购交易超过前三月总和,6 起金额超过 1 亿美元的交易公开,另有多起仍在谈判中。

AI 行业正在从 “单一的技术或产品竞争” 向 “生态系统整合” 转变,头部公司积极扩展业务边界,挖掘生态护城河:

英伟达 3.2 亿美元收购合成数据公司 Gretel、正在洽谈数亿美元收购阿里前副总裁贾扬清创办的 AI 推理服务公司 Lepton AI,从算力加速向推理、数据层拓展。马斯克旗下 xAI 用股权并购 X(Twitter),整合数据、模型、算力、分发渠道和人才。交易中,xAI 的估值是 800 亿美元,X 的估值 330 亿美元。Google 以 320 亿美元现金收购网络安全创业公司 Wiz,ServiceNow 斥资 28.5 亿美元收购 AI 创业公司 Moveworks,UiPath 收购开发定价、库存管理等 AI 工具 的 Peak 等,进一步扩张企业服务生态。

同时,英伟达投资支持的 GPU 算力租赁创业公司 CoreWeave 上市,筹集 15 亿美元,此前它计划筹集 40 亿美元。

拿到大额融资的公司变多,聚焦垂直领域

3 月,融资超过 5000 万美元的 AI 公司达 31 家,比上月增加 8 家,投资风向相对稳定。

基础模型方向,头部公司融资惊人:OpenAI 又融资 400 亿美元,累计融资额达到 586 亿美元,最新估值超过 3000 亿美元;Anthropic 又融资 35 亿美元,累计融资额达到 180 亿美元,估值达到 615 亿美元。

国内,智谱先后宣布拿到杭州、珠海、成都等三地国资的投资,总额达 18 亿元,累计融资超百亿人民币,完成公司股份制改革,为上市铺路。

基础设施方向,GPU 算力租赁服务的公司融资潮告一段落,研发 AI 芯片的以色列公司 Retym 和为大公司提供网络解决方案的 Nexthop AI 拿到大额融资。

为 OpenAI、Google 等公司提供编程数据的创业公司 Turing 拿到 1.11 亿美元融资,估值 22 亿美元,其年化收入达到 1.67 亿美元,已经盈利,显示数据标注服务的商业模式正在成熟。

Scale AI 正在推动估值 250 亿美元的老股交易,相比去年 5 月估值提升 80%。Scale AI 正在拓展业务范围,为人形机器人公司提供数据采集服务。

人形机器人创业公司迎来融资高潮,单月出现 7 笔大额融资,创近年新高:

国内,智元机器人、它石智能、千寻智能、维他动力等项目完成亿元级人民币或美元融资,估值最高的智元机器人已经达到 150 亿元。海外,Agility Robotics 筹集 4 亿美元,Dexterity 融资 9500 万美元,Apptronik 上个月融资 3.5 亿美元后再次融资 5000 万美元;软银则领投 Terabase Energy 的 1.3 亿美元融资,该公司用机器人建设太阳能发电厂。

应用方向,大额融资主要流向用大模型技术改造垂直领域的创业公司,分布在编程、医疗健康、企业数据服务、金融防诈、物流运输、药物发现等领域,至少有 18 家。

这些公司多数成立在 ChatGPT 发布之前,已在各自领域中积累稳定客户和数据资源。它们不是给大模型做 “壳”,而是想把大模型与垂直场景连接起来,用 AI 改造原本的流程,挖掘新的增长空间。

许多投资人把这个方向当作创业公司的机会——这些领域需要长期、深入的积累才能有竞争力,潜在收入规模尚未大到吸引巨头入场。多位硅谷的投资人告诉媒体,他们现在被覆盖全行业的 AI 应用创业计划书淹没。

显微镜下的大模型思考轨迹

大模型输出结果看似合理,但内部决策过程不透明,是一个黑盒子。3 月,Anthropic 发布两篇论文,尝试用 “AI 显微镜” 技术追踪模型内部运作机制,研究自研的大模型 Claude 如何识别指令、组织语言、执行推理 [6]。

大模型如何掌握数十种语言?

Claude 具备多语言能力,并不是靠 “法语 Claude”“中文 Claude” 同时上线,而是依赖一个共享的跨语言抽象机制。研究显示,在不同语言中提问 “小的反义词” 时,Claude 激活的是相同的 “小” 与 “相反” 概念,最终生成 “大的” 语义,再翻译成原语言输出。随着模型规模扩大,这种语言间的共享特征也显著增强。这表明模型具备跨语言迁移能力,推理和理解能力可在多领域中应用。

大模型预测下一个词输出,它怎么押韵?

比如下面这两句英文诗:

He saw a carrot and had to grab it

His hunger was like a starving rabbit

为了写出第二行,大模型必须要满足两个条件:与 “grab it” 押韵、逻辑通顺(为什么要抓胡萝卜)。按照通常的大模型预测下一个词的理解,大模型一边写词一边思考,直到末尾才会选了一个押韵的词。

Claude 在写诗时并非逐字生成到末尾才凑韵,而是提前规划。例如在写与 “grab it” 押韵的第二句前,它会预先检索相关话题词如 “rabbit”,再围绕这个词遣词造句。如果修改其内部状态中表示 “rabbit” 的部分,发现 Claude 会改写成以 “habit” 结尾的句子,仍然通顺押韵;若注入 “green” 概念,结尾则变为 “green”,不押韵但合理。这表明,大模型具备语言规划能力和灵活性,能够根据目标调整生成策略。

大模型不是计算器,如何心算数学题?

Claude 不是专门为计算设计的,训练目标只是预测下一个词,但它能在不一步步书写计算过程的情况下,正确计算如 36+59 的结果。研究发现,Claude 并非靠死记硬背或模拟标准算法,而是用并行路径完成计算:一条估算总和,另一条精确确定末位数字,最终合成答案。Claude 并不 “自知” 这些策略,它解释运算过程时仍引用人类常规算法,表明实际计算与解释机制是分离的。

大模型的思维链看上去很有逻辑,可靠吗?

Claude 3.7 Sonnet 等推理模型能进行较长的 “思维过程” 再输出答案,通常能提升准确性,但有时也会伪造看似合理的推理步骤。比如计算 0.64 的平方根时,Claude 激活了与中间计算步骤对应的特征;但在处理难题,如大型余弦函数时,有时会 “胡诌” 答案,甚至反向写一个合理的思维链。

明明训练大模型不要乱说,为什么它还会捏造事实?

大语言模型天生会有 “幻觉”,即使不知道答案也必须输出下一个词。Claude 训练中,学会在不确定准确答案时默认拒答,其内部存在一个 “拒答” 回路一直激活,除非识别到熟悉信息,如 “Michael Jordan”,此时 “已知实体” 特征会抑制该回路,模型才会作答。但大模型识别出是一个人名的时候,如 “Michael Batkin” 却不了解相关信息,就可能误激活 “已知” 特征,导致拒答机制失效,从而捏造看似合理却完全虚构的答案。

大模型的安全护栏为什么会失效?

大模型一旦开始处理句子,就倾向完成语义合理、语法正确的表达,即使这会输出有害内容。一个案例:模型被引导拼出 “BOMB”(通过 “Babies Outlive Mustard Block” 的首字母),从而生成炸弹制作说明。Claude 下意识地拼出 “BOMB” 后继续生成内容,直到完成一个完整句子后,才 “意识” 到问题,切换为拒绝响应。

Anthropic 称,当前的研究方法还有局限:只是处理几句简短的提示词,花数个小时也只能观察到大模型计算过程的一小部分,还不一定真实反映模型在做什么,如果想要分析模型处理长达成千上万个词的思维过程,不仅需要改进方法,可能还要用 AI 帮忙理解 AI。

[1] Anthropic 的 Agent 开发经验

[2] 亚历山大·多利亚 “模型就是产品” 博客文章

[3] 阿尔特曼接受本·汤普森访谈

[4] Adobe Analytics 的流量分析报告

[5] 黄仁勋在 GTC 上的发言

[6] Anthropic 追踪大模型内部思考过程的研究

题图来源:AI 生成。

来源:晚点LatePost

相关推荐