2026年最优先:数据赋能AI,刻不容缓!

B站影视 韩国电影 2025-11-17 19:36 1

摘要:您的 AI 成功 取决于您的数据。您的组织内数据越统一,您的 AI 策略所能带来的价值就越大。但要释放这一价值远非易事,尤其是在数据源孤立且分散的情况下。

AI成功需统一数据。数据孤岛致95%项目失败。平台工程助您查找、清理、集中数据,释放非结构化数据价值,实现AI目标,提升ROI。

译自:Your Top 2026 Priority? Prepare Your Data for AI

作者:Jennifer Riggins

您的 AI 成功 取决于您的数据。您的组织内数据越统一,您的 AI 策略所能带来的价值就越大。但要释放这一价值远非易事,尤其是在数据源孤立且分散的情况下。

“您有这些不同的业务线,” Red Hat 现场 CTO 组织的首席架构师 Joe Giordano 说,“他们都对不同的数据感兴趣,不一定知道所有数据位于何处,也无法访问这些数据。”

这使得组织难以找到跨部门的 AI 用例。或者,正如麻省理工学院 NANDA 最近的研究发现,95% 的 AI 试点项目失败 的原因在于实验受限于数据孤岛。

作为工程领导层,2025 年很可能您已将 AI 设为自上而下的优先事项。想要一个 2026 年的解决方案吗?在一个 内部开发者平台 中清理并组织您的内部数据,这样您就能真正实现去年的目标。方法如下。

您不知道自己拥有什么。因为数据孤岛是真实存在的,即使您打破它们并找到所有数据源,它们也并非说着同一种语言。

AI 的商业价值来自于跨组织的、数据翻译。但这并不简单。

例如,在金融服务领域,有财富管理和资产管理等独立部门。但 Joe Giordano 表示,对于 AI 的应用,他们本质上在做相同的事情,尽管其中一个可能将数据存储在 亚马逊云计算服务 (AWS) 上,而另一个则在本地。AI 数据发现始于了解整个业务中的其他服务、数据库和用例,同时也认识到大量数据滞留在电子表格和 PDF 中。

数据找到后,必须进行清洗和标记。在同一个金融服务组织中,相同的原始数据——例如,客户在当地咖啡店使用借记卡消费的记录——可以根据部门进行不同的标记:

市场营销和销售: 鉴于了解客户行为和目标优惠的目标,标签可以包括 可自由支配支出、餐饮、日常通勤。风险与欺诈: 根据此购买的地点和规律性,标签可能包括 正常交易、高风险地点、可能的账户泄露。合规性: 在银行端,标签可能包括 反洗钱监测标记(指反洗钱)、低风险交易。

由于 AI 擅长理解关系和进行翻译,因此它在创建跨组织、统一数据模型方面非常有用,该模型可用于帮助训练您的大型语言模型 (LLMs)。

“扩展 AI 意味着统一语音、文本、搜索和交易的实时层,同时嵌入隐私、合规性和联邦学习,”Netlify 首席技术官 Dana Lawson 说。“企业因其隐私和安全声誉而赢得信任——他们需要将这种严谨性扩展到新的 AI 驱动的管道中。”

平台工程策略 有助于通过 AI 支持的发现这些不同的数据源以及连接它们的 API 端点。然后,您可以添加一个内部聊天机器人覆盖层,使数据在各个功能之间更具可搜索性、可翻译性和可用性。

内部开发者平台 也是建立黄金路径的行业标准方式,即在支持您的隐私和安全要求的同时,以最简单的方式利用您的数据和代码。

命名并非唯一需要解决的数据差异。

正如“DevOps”一词的创造者 Patrick Debois 所说:“您公司内的大部分信息是非结构化数据,您希望对这些信息进行索引。”

他解释说,大多数组织使用基于向量的数据库,“类似于搜索引擎,但却是语义搜索的使者。”

结构化数据可以整齐地放入电子表格中,而 非结构化数据——从电子邮件、PDF、幻灯片和社交媒体帖子,到音频和视频文件,再到传感器和卫星等机器生成的数据——则涵盖了所有其他内容。

如果您的组织能够理解所有这些数据,您就有可能释放 AI 的真正价值。再说一次,AI 非常擅长阅读信息——即使是那些滞留在 PDF 或 20 年前扫描表格中的信息——然后在更大的上下文中理解它。您只需要根据您组织的具体情况,决定哪些数据是真正有用的。

接下来是数据预处理和清理,以减少“噪音”或无关信息。然后,将非结构化数据转换为数值表示,然后进行标记和标注。

任何 AI 策略还必须考虑有状态和无状态工作负载。

我们如此多的云原生、基于容器的世界都建立在无状态工作负载之上,其中应用程序不会从一个请求或事务到下一个请求或事务保留数据或“状态”。

另一方面,有状态工作负载在上下文内部以及跨会话、请求甚至应用程序重启时保留持久、可靠和一致的数据。常见的有状态用例是数据库、金融系统、实时通信、电子邮件服务器、消息队列、内容管理系统和电子商务购物车。

任何 AI 数据策略都必须以最高级别的安全性来管理这些不同的用例。

一旦清理完毕,您必须将这些数据集中到一个统一的数据库或数据湖中。包括来自组织内部和通过第三方 API 的不同数据源,以及相关的行业开放数据源。

这些数据最好在云中进行统一和共享——无论是公共云、私有云还是混合云。您必须监控所有数据,以检测漂移并确保合规性和准确性。平台方法还使您能够根据服务水平目标 (SLO) 衡量性能。

Red Hat 的 Joe Giordano 解释说,数据需要像基础设施一样对待:“我们需要持续监控这些变化。应用程序连接到数据库时,它本身不一定会发生变化或演进。”

跨企业 AI 策略需要一个平台来统一数据发现并管理对其的访问。此数据管道也必须以可审计的方式建立。

这项艰巨但重要的数据准备和集中化过程需要 平台主导的方法,可能由平台工程团队——与数据科学和 AI 办公室合作——协调这种集中化、数据清理和基于角色的访问控制 (RBAC)。

平台也是实现自助服务访问的首选方式,这可以缩短您精心策划的数据和 AI 项目实现投资回报率 (ROI) 所需的时间。

最终,您的 AI 投资回报率必须应用于业务和流程。虽然您的 AI 策略的独特价值来自您的数据,但这一切都归结于它所促进的跨职能、跨组织对话。

来源:我看着像熊猫吗

相关推荐