无人谈论的AI堆栈：数据采集作为基础设施

摘要：人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦，而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层：数据。

人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦，而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层：数据。

让我们明确一点：虽然扩展模型规模仍然很重要，但对于大多数现实世界的人工智能产品而言，性能提升越来越取决于数据质量和新鲜度，而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂，而且在环境方面也难以为继，因为惊人的电力和水成本根本无法扩展。

该瓶颈已从堆栈中移出。

构建 AI 原生产品的创始人和首席技术官开始意识到，他们的代理不会错过新兴市场信号，也不会给出空洞的见解，因为 “模型”本身 “不够智能”——它之所以失败，是因为它盲目地处理过时、不相关或不完整的上下文。正因如此，Salesforce 于 2025 年 5 月斥资 80 亿美元收购了 Informatica，以增强其 AI 驱动的 Agentforce 平台。现在，他们可以访问高质量的实时数据，从而获得更准确、更可扩展的成果。

性能的成败取决于您能检索到什么，而不仅仅是您如何提示。除非您使用的是 H100 集群或运行着 API 预算无限的前沿模型，否则您超越巨头的最佳机会是在您负担得起的范围内为模型提供更智能的数据：领域特定、结构化、去重和新鲜的数据。

但在构建情境之前，它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集，而是能够反映当前情况的强大管道。

各位，这就是基础设施。如果说计算让 NVIDIA 变得不可或缺，那么我认为下一个重大突破不是更多层，而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。

“好数据”是什么样的？

如果你正在构建一款 AI 原生产品，那么系统的智能程度将不再取决于你的提示有多巧妙，或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。

但“好数据”的定义相当模糊。让我们来澄清一下。它对人工智能的意义如下：

领域特定：AI 辅助优化零售定价需要竞争对手数据、客户评论或区域趋势，而不是无关的噪音。你必须做到精准定位。

持续更新：网络瞬息万变。错过今日 X 趋势的情绪模型，或使用上周价格的供应链模型，都已经过时了。

结构化和去重：重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模。干净胜过庞大。

实时可操作：过时的数据就是死数据。实时数据 ——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。

这就是 Salesforce 收购 Informatica 的原因——不是为了新模型，而是为了向 Agentforce 提供结构化的实时数据，以改善下游决策。

正因如此，IBM 于 2024 年 7 月斥资 23 亿美元收购了 StreamSets，用于打造 Watsonx。StreamSets 专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得 IBM 能够跨企业系统为 Watsonx 提供最新、一致的信号。对于需要基于实时状态（而非仅仅基于历史模式）进行推理的 AI 来说，这种基础设施能够带来 10 倍的增效效果。

这也是 Dataweps 转向Bright Data为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的 AI 驱动定价和竞价系统依赖于快速、准确的数据，而 Bright Data 的 API驱动生态系统（包括代理、存档/数据集、支持 AI 代理的浏览器自动化工具等）使他们能够可靠且大规模地收集这些数据。Bright Data 不仅仅是数据抓取，它还提供了现实世界 AI 系统所需的弹性、容量和合规性。坦率地说，它是一家 AI 基础设施提供商。

关键在于：检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。

正是现在，正确的环境。这就是后 Deepseek 时代 AI 生存或消亡的关键所在。

第一步总是最难的

乍一看，数据基础设施听起来像是管道。采集管道、转换、存储？貌似无聊至极。但在 RAG 和代理 AI 时代，这种管道已变得至关重要。为什么？因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。

我是这样认为的：现代人工智能数据栈已经发展成为一个成熟的价值链，从信息的获取和提取，到信息的转换和丰富，到信息的整理和排序，再到存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的 ETL 管道不同，它不仅仅是将数据录入数据湖然后留在那里。

大多数团队在第一步就搞砸了：采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新，在边缘情况下默默地失败，或者以错误的结构或语言捕获信息，那么你的整个堆栈都会继承这种盲目性。

换句话说：你无法设计你未曾摄取的语境。这里有一篇有趣的论文，《AI 海洋中的塞壬之歌：大型语言模型中的幻觉调查》，作者是 Zhang 等人。该论文展示了在生产级系统中，未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。

因此，在 RAG 和代理 AI 时代，摄取需要具有战略性，这是不容置疑的：

它必须对人工智能代理友好，也就是说，能够提供结构化的、即时的数据。

它必须处理动态 UI、CAPTCHA、变化的模式和混合提取（API + 抓取）。

多步骤AI代理既需要实时信号，也需要历史记忆——现在发生了什么，之前发生了什么，发生顺序如何，以及原因。因此，该基础设施必须支持定时提取、增量更新和TTL感知路由——所有这些都具有弹性、合规性，并且随时准备应对变化。

它必须具有规模可靠性，并能持续从数百万个来源提供最新信息。

并且必须符合网站条款和法律规范。

这就是为什么脆弱的抓取工具、静态数据集和一次性连接器不再足够好的原因，以及为什么像 Bright Data 这样专注于自动化友好、代理优先数据基础设施的平台正在变得像模型本身一样基础。

我见过像 Gemma 3 这样的开源、开放权重模型在狭窄领域中表现优于 GPT-4，仅仅是因为新鲜的、精选的、基于领域的数据让它们能够用于更好的检索系统。

我们来算一下。假设我们将检索到的上下文片段的总效用定义为：

U=i=1ΣkRiFi

在哪里：

R i ∈ [0,1] 是第 i 个检索到的片段与查询的相关性得分。

𝐹 𝑖[ 0 , 1 ] 是新鲜度得分，以随时间衰减的函数建模（例如指数或线性）。

k 是检索到的上下文块的数量，受模型的上下文窗口约束。

即使假设语义搜索完美（即 𝑅𝑖已优化），最大化 U 也可能意味着丢弃高度相关但过时的数据，转而选择相关性稍低（但最新！）的信号。如果您的提取层跟不上，就会造成可见性损失和效用下降。第二个影响与第一个影响相辅相成：不仅无法获得新鲜内容，而且过时内容的存在还会降低性能。这会导致检索到的上下文质量的复合下降。

这就是为什么数据采集（包括但不限于计划更新、TTL 感知爬取、SERP 提取、提要解析等）不再仅仅是管道。

数据采集基础设施究竟是什么样子

那么，将数据采集视为一流的基础设施究竟意味着什么呢？

这意味着：

构建循环管道，而非负载。数据不应被一次性抓取并存档。它应该按计划进行流式传输、刷新和更新——并内置自动化、版本控制、重试逻辑和可追溯性。一次性转储无法提供持久的智能。

将新鲜度纳入检索逻辑。数据会老化。您的排名和检索系统应该将时间漂移视为首要信号——优先考虑能够反映当前世界状态的上下文。

使用基础设施级来源。从自制脚本中抓取原始 HTML 无法扩展。您需要访问层，这些层应提供 SLA、对验证码的弹性、模式漂移处理、重试、代理编排和合规性支持。

跨模态采集。有价值的信号存在于 PDF、仪表板、视频、表格、屏幕截图和嵌入式组件中。如果您的系统只能从纯 HTML 或 Markdown 中提取数据，那么您就错过了一半的信息。

构建事件原生数据采集架构。Kafka、Redpanda、Materialize 和时间序列数据库——这些并非只适用于后端基础设施团队。在 AI 原生系统中，它们将成为采集和重放时间敏感信号的神经系统。

简而言之，不要再把数据视为静态资源。要把它当成计算资源——需要编排、抽象、扩展和保护。这才是“数据采集即基础设施”的真正含义。

未来在于信息 > 规模

大多数 RAG 讨论都停留在模型层面。但如今正在兴起的 AI 栈，其模型可以互换，而数据基础设施才是长期的护城河。

摩尔定律或许已不复存在，但原始性能仍在稳步提升。但在不久的将来，我并不确信人工智能系统的性能将取决于微调或快速的魔法。我认为，最终的胜利将取决于你的系统掌握的知识以及它们获取知识的速度。最智能的人工智能系统并非拥有最大窗口的系统，而是拥有最佳上下文管理能力的系统—— 这得益于实时数据、动态内存和智能提取。

因此，作为工程师，我们不应将每一个新的数据源、反馈或实时数据流视为“内容”，而应将其视为能力。因此，每一个新的数据流也未必是噪音，而是信号。

也许你已经构建了这样一个关键的人工智能基础设施——只是你可能还没有这样称呼它。

也许你已经开始考虑将数据（例如 API）馈送到你自己的内部智能层，并且意识到：你不需要最大的模型。你只需要合适的管道。

拥有这种想法的团队，将网络规模的数据采集视为基础设施而不是一项次要任务，将会行动得更快、学到更多、用更少的费用获得成功。

来源：乔布斯北京分斯

标签： rag 基础设施数据采集堆栈 ai堆栈

本文地址：http://news.43b.com.cn/a/709947.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!