AI Agent 时代:从“知识狂”到“行动派”

B站影视 内地电影 2025-10-15 15:35 1

摘要:过去五年里,AI 模型在数据处理和推理能力上的进步推动了企业和工业开发者不断追求更大的模型和更宏大的基准测试。如今,随着“AI Agent”(代理式 AI)作为生成式 AI 的继任者登场,对更聪明、更细腻的智能体的需求正在快速增长。然而,AI Agent 往往

过去五年里,AI 模型在数据处理和推理能力上的进步推动了企业和工业开发者不断追求更大的模型和更宏大的基准测试。如今,随着“AI Agent”(代理式 AI)作为生成式 AI 的继任者登场,对更聪明、更细腻的智能体的需求正在快速增长。然而,AI Agent 往往仍被以模型规模或训练数据量来衡量。

数据分析与人工智能公司 Databricks 认为,当下的 AI 军备竞赛忽略了一个关键点:在生产环境中,最重要的不是模型“知道”多少,而是当利益相关方依赖它时,它的实际表现如何。Databricks 首席 AI 科学家 Jonathan Frankle 强调,现实世界中的信任和投资回报,来自于 AI 模型在生产中的行为表现,而非其信息储量。

不同于传统软件,AI 模型输出的是概率性结果,而非确定性结果。“你能衡量 AI 系统的唯一方式就是观察它的行为。你无法窥探它的内部,没有源代码可供查验。”Frankle 在接受 Fast Company 采访时表示。他认为,尽管公共基准测试有助于衡量 AI 的一般能力,但企业往往对它们过度依赖。

在他看来,更重要的是基于业务特定数据进行严格评估,以衡量质量、优化输出,并指导强化学习策略。“如今,人们常常是写个提示词,试几个输入,凭感觉判断一下,就直接部署 AI Agent 了。在软件开发中我们绝不会这么做,在 AI 中也不应该如此。”他说。

图片来源:Shutterstock

Frankle 解释道,对于 AI Agent 而言,评估取代了许多传统工程产物,比如讨论、设计文档、单元测试和集成测试。因为 AI Agent 背后并没有可供审查的代码,提示词也不是代码。这正是评估至关重要并应成为负责任 AI 部署基石的原因。

从“相信模型知道什么”转向“关注模型如何表现”,构成了 Databricks 今年两大创新的基础:测试时自适应优化(TAO)与 Agent Bricks。这两项技术的目的,是让行为评估成为企业 AI 的第一步,而不是事后的补救。

传统 AI 评估往往依赖于基准分数和源自学术实验的标注数据集。尽管这些指标有价值,但很少能真实反映企业在语境化、领域化决策中的需求。在生产中,AI Agent 可能需要用企业的专有语言生成 SQL 语句,精准解读监管文件,或从混乱的非结构化数据中提取高度特定的字段。

Databricks AI 副总裁 Naveen Rao 表示,这些本质上是行为挑战,需要迭代反馈、领域感知的评分和持续调优,而不仅仅是“增加知识储备”

“通用知识或许对消费者有用,但对企业未必如此。企业需要差异化,必须利用自身资产来有效竞争。”Rao 在采访中指出,“交互和反馈是理解用户群体需求以及何时呈现的关键。此外,信息的格式往往需要因语境而异。这一切都需要定制化调优,可以通过上下文工程,也可以通过修改神经网络权重来实现。”

在这两种情况下,他强调,一个稳健的强化学习框架都是必不可少的,还需要配合有效的用户界面来收集反馈。这正是 TAO 承诺的价值:通过企业已有输入来提升模型表现,并通过算力扩展质量,而不是依赖昂贵的数据标注。

图片来源:Databricks

与大多数公司将评估视为流水线终点的“事后之举”不同,Databricks 将其置于核心环节。TAO 利用测试时算力生成多个回应,并通过自动或定制的“裁判”进行评分,然后将这些分数输入强化学习更新,以微调基础模型。最终得到的模型在推理成本上与原模型相同——算力集中消耗只发生在调优时,而非每次查询。

“难点在于如何让 AI Agent 在你特定任务上表现良好,利用你已有的数据和知识,并控制在成本与速度可接受的范围内。这就是从‘通用智能’转向‘数据智能’的过程。”Frankle 解释道。“TAO 能帮助微调廉价的开源模型,仅凭企业中常见的数据,就能释放出令人惊讶的强大能力。”

据 Databricks 博客介绍,TAO 已成功提升了开源的 Llama 变体,在 FinanceBench、DB Enterprise Arena 和 BIRD-SQL 等企业级基准测试中显著提高分数。公司称,这一方法使得 Llama 模型在文档问答、SQL 生成等任务上的表现接近 GPT-4o 和 o3-mini 等专有系统,同时保持低推理成本。在一项涵盖 17.5 万个提示的多任务测试中,TAO 让 Llama 3.3 70B 性能提升约 2.4 分,Llama 3.1 70B 提升约 4.0 分,缩小了与当代大模型的差距。

图片来源:Databricks

为补充这一微调方法,Databricks 推出了 Agent Bricks,一项集成在其数据智能平台中的代理型 AI 功能。它让企业可以用自身数据定制 AI 智能体,调整神经网络权重,并创建自定义裁判来执行领域特定的规则。产品的目标是自动化大部分智能体开发:团队只需定义智能体的目标并连接数据源,Agent Bricks 便会生成评估数据集、创建裁判并测试优化方法。

客户可以选择优化方向——要么追求最高质量,要么降低成本——从而在人类监督下快速迭代,减少人工干预。

“Databricks 最新的研究成果,包括 TAO 和人类反馈代理学习(ALHF),共同驱动了 Agent Bricks。”Rao 解释说,“有些场景需要专有模型,这时它能安全地连接到企业数据,并运用检索、结构化输出等技术来最大化质量。但在许多情况下,微调后的开源模型能够以更低成本取得更优表现。”

他补充道,Agent Bricks 的设计初衷是让领域专家——无论是否具备编程能力——都能主动参与并改进 AI Agent。主题专家可以用简单的“点赞/点踩”来审查其回答,而技术用户则能深入分析结果并提供详细指导。

“这确保了 AI Agent 能够反映企业目标、领域知识和不断变化的预期。”Rao 指出。早期客户已见到快速成效:阿斯利康利用 Agent Bricks 在不到一小时内处理了 40 多万份临床试验文件并提取出结构化数据;Flo Health 则借助该功能将医学准确性指标提高了一倍,超越了商用大语言模型,同时保持严格的隐私和安全标准。“这种方法融合了 Flo 的专业健康数据与 Agent Bricks 的合成数据和定制化评估,从而在规模化、低成本的前提下提供可靠的健康支持,为推进女性健康奠定了独特优势。”Rao 说。

“以行为为先”的评估转向务实是重要的,但并非万能解药。怀疑者警告称,自动化评估和调优同样可能强化偏差、固化错误输出,或让性能在不被察觉的情况下漂移。

在某些领域,我们确实拥有可被信任的自动验证手段,比如形式系统中的定理证明。但在其他领域,人类判断依然至关重要。”麻省理工学院计算机科学与人工智能实验室副教授 Phillip Isola 指出。“如果我们用 AI 来充当自我改进的批评者,而这个 AI 本身是错的,系统就可能彻底跑偏。

Isola 强调,尽管自我改进型 AI 系统正在引发巨大兴奋,但也伴随更高的安全与安保风险。“它们限制更少,缺乏直接监督,可能发展出出乎意料的策略并带来负面副作用。”他同时提醒,企业可能会为了“刷分”而过度拟合基准。“关键是要不断更新评估标准,每年都要测试模型尚未‘背熟’的新问题。”

Databricks 也承认这些风险。Frankle 强调要区分“绕过人工标注”和“绕过人工监督”,并指出 TAO 只是利用企业已有数据进行的微调技术。在敏感应用中,他强调防护措施依然必不可少,任何 AI Agent 在缺乏严格性能评估前都不应投入使用。

图片来源:Rafael Henrique/SOPA Images

其他专家则指出,更高的效率并不会自动改善 AI 模型的一致性,而目前也没有明确的方式来衡量一致性。“对于界定清晰的任务,可以通过人类反馈来提升一致性,但对于更具创造性或开放性的任务,我们该如何改进一致性呢?机制可解释性研究还远远不够。”Clarifai CEO Matt Zeiler 表示。

Zeiler 认为,业界依赖通用和特定基准混合的方式演进。虽然这些测试将复杂因素压缩为几个简单分数,但得分相近的模型在使用时的“体验感”并不总是相同。

“这种‘体验感’并未被当下的基准捕捉到,但要么我们最终会找到量化的方法,要么就承认它是人类偏好的主观部分——有些人就是更喜欢某些模型。”他说。

如果 Databricks 的结果能够站得住脚,企业可能会重新思考 AI 战略,将反馈回路、评估管线和治理置于模型规模或海量标注数据之上,把 AI 视为一个“随使用而演进的系统”,而非一次性产品。

我们相信,AI 的未来不在于更大的模型,而在于能在企业数据上不断学习与推理的自适应、代理型系统。”Rao 表示。“这正是基础设施与智能的交汇点:你需要编排、数据连接、评估与优化协同运作。”

来源:出色WSJ中文版

相关推荐