数据湖迈向 Data+AI 一体化平台的演进之路

B站影视 韩国电影 2025-05-22 09:00 2

摘要:导读随着数据湖凭借灵活性、低成本和开源特性被广泛采纳,其在构建大规模数据平台中的重要性显著提升,尤其在处理非结构化数据和推动数据与 AI 一体化方面展现出巨大潜力。在数据湖领域全球第一巨头 Databricks 的 2024 年营收中,其 2024 年 40%

导读随着数据湖凭借灵活性、低成本和开源特性被广泛采纳,其在构建大规模数据平台中的重要性显著提升,尤其在处理非结构化数据和推动数据与 AI 一体化方面展现出巨大潜力。在数据湖领域全球第一巨头 Databricks 的 2024 年营收中,其 2024 年 40% 的营收来自 AI 相关业务,印证了数据湖与 AI 融合的巨大商业潜力。

本文将围绕国内市场现状,探讨如何推动数据湖从传统的 Data 模式进入到 Data+AI 一体化平台这一方向。主要内容包括:

1. 数据湖在 AI 时代的价值重构

2. 新一代数据平台的五大核心能力

3. 腾讯云 Data+AI 一体化实践

4. 未来展望

分享嘉宾|胡嘉琪 腾讯 专家产品经理

编辑整理|iris

内容校对|李瑶

出品社区|DataFun

01

数据湖在 AI 时代的价值重构

首先来分享一个智能驾驶案例。

自动驾驶属于数据密集型赛道,车辆借助三大传感器(雷达、激光、摄像头)不断生产和上报各种数据,这些数据通过传统数据工程的管道,经过各种加工处理,形成了各类传统的数据应用,包括车辆态势感知、车主画像等,另外这些数据也在同一套系统里进入了模型训练环节,并形成实时的模型推理,反过来影响车辆的各类自动驾驶决策,形成一个从 Data 到 AI 又返回到 Data 的闭环。

智能驾驶案例凸显企业级架构中数据和 AI 任务整合的必要性,以及现代 IT 架构中以数据为中心的趋势,而 Data Centric 架构的崛起与大模型的广泛应用密不可分。

Data Centric 具有两层含义。首先,从 LLM 的发展来看,数据的地位正在发生革命性改变,传统“以模型设计为核心”的范式,正全面转向“聚焦数据质量与领域知识”。例如,GPT-1 至 GPT-3,训练数据量从 4.8GB 增长至 570GB,而 GPT4 融入了更多人工标注以及问答演示数据,从而让效果产生了极大的提升,真正意义上引爆了这一波生成式 AI 的行情。这一串数据的演变史也印证了一个事实,数据已经成为 LLM 训练的一个核心资源,数据的质量直接决定了模型的最终效果。

另外,从 LLM 应用角度来看,企业级生成式 AI 场景离不开企业的私域数据,包括传统的报表,以及图像、文档等过去未被利用的数据。因此企业 AI 应用的关键在于如何充分挖掘和高效管理私域数据和领域知识,而这恰恰是数据湖所擅长的领域。

大模型时代的 Data Centric 需要新一代的数据平台架构,传统数据湖平台已难以满足当下 LLM 应用对于数据质量把控、领域知识整合、高效大模型应用支撑的需求。新架构需要更智能地管理数据生命周期,无缝对接大模型和各类 Agent 应用场景,成为释放数据价值的一个新基建。

下面让我们来回顾一下数据平台的演进历程。

在信息化时代,以 Oracle 为代表的传统数据仓库实现了线上信息化从 0 到 1 的过程。但随着互联网的发展,其处理大数据的能力成为瓶颈。互联网时代,谷歌的三驾马车和初代数据湖 Hadoop 的出现,通过分布式架构在一定程度上解决了大吞吐量问题,企业得以存储和处理海量数据。进入互联网+时代,基于开源的组装式 Lakehouse 数据平台登场,引入了 StarRorks 等更多引擎组件,实现了数据的实时处理和分析。

现在 AI 时代已到来,数据平台将迎来哪些新的变化呢?回顾数据平台的发展历程,始终遵循大道至简的规律,其变化核心始终是由客户需求驱动的。未来客户对数据平台的新需求将决定数据湖和数据平台的演进方向。下面就来进行详细的需求分析。

大模型时代数据平台的变革可以用 Agentic Analytics 来概括。

首先,从使用对象维度来看,数据平台将从数据工程师专属逐渐扩展至一般用户,如产品经理和运营人员,通过自助式分析工具即可实现数据分析。未来,数据平台的最频繁用户可能会演进为 AI Agent,这也预示着职业领域的潜在变革。AI Agent 的效率能否达到一般员工水平,关键在于能否高效利用企业私域数据和领域知识,这包括对接企业内部系统如 ERP、CRM,以及实时获取所需数据。因此,下一代数据平台的核心能力之一是对 Agent 的对接和支持,这不仅是技术变革,更是数据价值释放的新起点,意味着 AI 在企业数据处理中的深度整合。

除了 Agent 以外,下一代数据平台还会出现哪些新的变化?我们来做一个全面的需求总结。在 AI 时代的数据平台上,从两个大的维度来讲,数据平台关键能力会发生一系列的变化,首先体现在传统数据工程维度,新一代数据平台需具备自然语言交互分析能力,支持业务人员通过自然语言生成 SQL,提升数据开发生产力。通过构建统一计算引擎,实现离线与实时数据处理的一体化,一套资源即可同时满足离线和实时场景需求。同时,依托流批一体的增量计算能力,平台将进一步延伸离在线协同能力,确保数据处理全链路的连续性与高效性。

在大数据与 AI 融合方面,新一代平台将整合 DataOps 与 MLOps,实现数据与 AI 系统的一体化,基于同一份数据和计算资源进行数据分析与机器学习推断。面向大模型和 AI 相关应用,新一代数据服务平台需具备 AI Search 能力,提供二维表计算与向量检索的多模态服务能力。此外,如前文所述,需构建具备更强自主性与智能决策能力的 Agent 体系。在此基础上,引入基于 AI 的大数据自治系统,利用 AI 的推理和学习能力,降低数据平台运维对工程师个人经验的依赖,减少企业在数据平台运维上的投入,实现智能化运维。

具体应用包括 Data for AI 方向的 Data Driven Agent 应用、AI Search,以及 AI for Data 方向的 NL2SQL 和智能自治。这些应用将建立在新一代平台 Data+AI 一体化能力的基础之上。数据湖本身的智能治理、统一元数据、智能表格式存储等能力,也是未来平台需具备的关键基础能力。

02

新一代数据平台的五大核心能力

1. Data+AI 一体化

企业级数据平台在面对多种工作负载时,通常被迫采用烟囱式架构,带来了开发成本高、系统复杂度高等问题,导致 TCO 成本增加,特别是在大数据和机器学习领域重度投入的客户中普遍存在。

通过构建统一开发平台,无论是批处理、交互式查询、流处理还是数据科学,都能在一个平台上集中处理,告别频繁切换工具的繁琐,实现 Data 加 AI 一体化应用。一体化架构基于统一的存储和元数据服务,能够有效管理大数据领域的结构化数据和 AI 领域的非结构化资产,通过一套多模态的元数据服务整体管理,实现基于一份数据支持 Data+AI 的一体化应用。

其优势在于简化架构,告别多系统的割裂,通过 CPU 加 GPU 的混合调度同时服务 Data 和 AI 场景,有效降低总体成本,减少数据冗余和开发资源浪费,同时集中化管理使用户操作更加高效。Data+AI 一体化不是简单的技术叠加,而是从底层重构数据和 AI 之间的协作逻辑,使企业在数据分析和 AI 应用中变得更加敏捷,成为未来数据平台的核心竞争力,帮助企业最大化释放数据和 AI 的协同价值。

2. Data Driven Agent 应用

在生成式 AI 应用开发中,深度融合企业私域运营数据以产生更精准、实时的智能应用,是下一代数据湖需具备的关键能力。当前业界面临两大挑战:首先,AI 模型访问多数据源的开销较大,且便利性与安全性不足;另外,AI 模型缺乏高性能数据分析能力,通常需通过挂载本地数据库或关联文件来实现 Agent 应用。为解决上述挑战,业界已推出 MCP(Model Context Protocol,模型上下文协议),旨在安全地打通大模型与各数据分析平台,使AI模型能直接查询和利用企业实际运营数据。基于云原生的 MCP 服务,AI 模型可通过 MCP 协议与 MCP 服务器通信,直接对接云服务商的大数据生态产品,如腾讯云大数据平台,实现快速构建私域数据驱动的 AI 应用。采用云原生 MCP 服务的优势在于,不仅能快速实现基于企业私域数据的AI应用,还能确保数据安全,避免数据泄露风险,尤其适合解决传统企业对数据安全的担忧。

3. AI Search

数据湖天然具备非结构化数据存储能力,如文本、PDF 等暗数据的存储。这些非结构化数据的处理在进入 Data+AI 领域时显得尤为重要,企业需利用这些数据进行更深层次的分析。下一代数据湖需同时具备 AI Search 的产品化能力,以处理多样化的非结构化数据和知识,满足企业级 AI Search 的高门槛需求,包括多模态处理能力和严肃场景下的精准知识问答。未来数据湖一体化平台需集成一站式的 AI Search 能力,全链路解决复杂文档的解析、切分、检索、阅读理解和生成等端到端的能力,目前业界仍处于起步阶段。

4. 自然语言查询 NL2SQL

自然语言查询是当前业界热门领域,旨在使不具备 SQL 技能的普通用户也能进行自定义数据分析,国内外众多 BI 产品正尝试推出此项功能以满足市场需求。

数据民主化是 Gartner 提出的概念,旨在通过技术降低数据理解和使用的门槛,使更多人能够进行高效的数据开发和分析。对于复杂的企业级数据,最大的挑战不在于编写代码,而是理解和适应数据库的复杂结构和数据间的关联,这需要大量的学习和适应过程。自然语言查询技术和 AI 的应用,能够通过理解数据库结构和业务数据,帮助用户快速获取所需数据,类似于代码开发中的辅助工具,提供逻辑建议和优化方案。AI 技术不仅可以降低非专业用户进行数据查询的门槛,让更多人能够轻松利用数据库进行数据分析,同时也能够提高专业数据开发工程师的工作效率和准确性。在未来数据驱动的时代,自然语言查询和AI辅助的数据处理能力将成为数据平台的关键能力,类似于代码编辑器对程序员效率的提升。

5. 智能自治

智能自治能力在当今降本增效的时代对于数据平台运维至关重要,通过 AI 驱动提升数据平台性能、系统效率和运维效率。

基于 AI 负载感知和弹性资源规划,智能查询优化和资源调度能更精准预估资源需求,实现资源利用率最大化,降低资源成本。另外一点是更高效的系统运维,以往大规模数据湖平台的系统运维依赖大量 SRE 人力。未来借助 AIOps,我们可以首次实现运维的 “自动驾驶”。基于传统 ML 模型与 AI Agent,平台自身就能够实现自动巡检、异常检测、参数调优等任务,全程无需人为干预,提高运维效率并减少人力依赖。

腾讯云推出了大数据智能自治底座“元启”,为大数据公有云系列产品提供统一的 AIOps 支持,目标是在 2025 年底实现运维效率提升一倍以上。

03

腾讯云 Data+AI 一体化实践

1. 案例展示

接下来通过一个具体案例来展示新一代 Data+AI 一体化平台是如何帮助客户更好地开展 AI 应用实践的。

精准营销对于电商而言是一个非常关键的场景,这里要分享的生成式 AI 任务是自动发送一条包含深圳最畅销饼干及其最佳搭配商品图文的小红书推广,以提高销量。

首先,Agent 基于 MCP 协议可以访问到企业运维数据中的销售报表,从中获取到深圳最畅销饼干是哪款。这一步中 Agent 使用非结构化数据快速定位目标商品,为后续思维链明确方向。

第二步,Agent 会调用一体化平台部署的商品推荐小模型,查询经常与这款饼干搭配销售的商品。这一过程中,充分发挥小模型在特定任务上的高效性,精准匹配相关产品。

第三步,基于历史广告文案等非结构化数据,利用 RAG 生成合适的广告语。

最后,从企业素材库中获得相关资源,增强生成广告相关图片。

从上图右侧的两张图片的对比可以看出,与直接调用 LLM 得到的图片相比,引入 Data 后生成的图片效果明显更加符合用户需求和商品特性,更具吸引力。

整体流程中,借助一体化平台,Agent 可以深度结合企业私域数据,融合结构化数据与非结构化数据,生成更精确、更实时、更能满足业务需求的结果。

2. 腾讯云 Data+AI 一体化平台架构

统一开发平台 WeData 深度融合 DataOps、MLOps 与 LLMOps 能力,包括探索分析、流程编排、AI 开发以及智能运维、统一治理平台等多个模块。

在数据相关技术栈方面,腾讯云依托开源数据湖计算 DLC 与自研 TCHouse-X,为下一代数据湖构建提供了在离线一体化、批流一体和增量计算 Pipeline 等关键能力。此外,腾讯云在去年推出了兼容 Spark 生态的向量化高性能计算引擎 Meson,并计划于今年下半年推出高性能机器学习引擎 Xpark——一款完全兼容 Pandas 的高性能分布式 Python 计算引擎,以满足不同场景下的机器学习相关需求。

AI 方面,与腾讯云已有的 AI 平台 TI-ONE 形成更深入的云原生联动,大数据计算引擎可以便捷地调用大模型能力。基于 Agent 开发框架 LKE,可通过 MPP 直接访问各种大数据产品。

Lakehouse 底座方面,首先,基于统一治理平台“元启”推出了大数据智能管家 TC-Insight;另外,还推出了面向 Data+AI 的统一元数据管理平台 TC-Catalog,提供了覆盖结构化/非结构化数据以及 AI 模型的统一元数据管理、权限管理等功能,将逐步对接大数据和 AI 引擎,从而实现基于一份湖存储快速打造 Data+AI 一体化应用;最后,今年还计划推出基于 Iceberg 的批流一体智能表格式服务 TC-Lake。通过这三个 TC 系列模块,将构建一个面向未来的为 Data+AI 一体化提供能全面、高效支持的 Lakehouse 底座。

04

未来展望

数据资产已成为新时代企业的“石油”,而 Data+AI 平台则是企业提升生产力的“炼油厂”。正如决定一个 LLM 模型性能表现的核心因素是训练样本,企业要提高 AI 时代的竞争力,就需要构建高质量的数据资产体系,依托 Data+AI 平台充分挖掘并利用私域数据和领域知识所蕴含的价值。

当下,我们正处于数据湖变革的十字路口,而变革的火种正是 Data 与 AI 更紧密的结合,从而让基于数据洞察的生成式 AI 应用更加轻快易用。在这一方向上,腾讯云将持续投入,让用户能够基于腾讯云大数据产品快速开发出各种 AI 应用,加速释放业务增长新动能。

以上就是本次分享的内容,谢谢大家。

来源:DataFunTalk

相关推荐