导读在 AI 时代的大背景下,数据的存储和访问模式以及数据生成和访问的主体都在发生变化,这对数据平台架构提出了新的挑战和需求。阿里云推出的 OpenLake 解决方案旨在应对这些变化和挑战,为用户提供一个统一、高效、灵活的数据湖仓平台。本文将从数据架构演进的必要性、整体架构设计、数据管理和存储底座、多计算场景支持等方面对 OpenLake 进行详细介绍。摘要:导读在 AI 时代的大背景下,数据的存储和访问模式以及数据生成和访问的主体都在发生变化,这对数据平台架构提出了新的挑战和需求。阿里云推出的 OpenLake 解决方案旨在应对这些变化和挑战,为用户提供一个统一、高效、灵活的数据湖仓平台。本文将从数据架构演进的必
全文目录:
1. 数据平台发展趋势
2. OpenLake 整体架构
3. 统一的多模态数据管理底座DLF
4. 丰富的多模态计算场景支持
分享嘉宾|李钰 阿里云EMR负责人,阿里巴巴资深技术专家
编辑整理|王晓钰
内容校对|郭慧敏
出品社区|DataFun
01
数据湖、湖仓一体以及大数据搜索AI湖仓一体
回顾历史,每一次世界范围超大规模的新兴应用的出现和落地,都会造成数据存储模式和访问方式的变化,而数据存储模式和访问方式的变化又会进一步推动整个数据平台的架构升级。
2000 年前后,随着 PC(个人计算机)互联网技术的普及应用,数据生成模式与访问方式发生了根本性转变:数据生产从单机环境拓展至网络化场景,数据访问方式从本地访问转变为网络化访问。这种变革直接导致数据规模呈现指数级增长,传统单机数据库系统难以满足新兴应用需求。在此背景下,以 Google 公司发布的《MapReduce》《GFS》《BigTable》三篇里程碑式技术论文为代表,大数据处理技术应运而生,随后 Hadoop 分布式计算框架的出现,则正式开启了系统化大数据平台技术体系的构建进程。
2010 年前后,随着 iPhone 等智能手机的出现和普及,移动互联网应用爆炸式发展。这彻底改变了用户对互联网的访问模式,使其不再受物理场所限制。相较于传统台式计算机终端,智能手机应用在时空维度的拓展大幅提升了数据生成速率及访问频率。这一变革直接推动了大数据处理技术的革新:2010 年代初,以 Spark、Flink 为代表的批流一体计算引擎应运而生,同时 Presto 等分析型引擎也逐步成熟。在数据架构层面,基于 Lambda 架构的企业级数据仓库体系开始在各行业得到广泛应用。这些数据平台架构变革与移动互联网的普及发展具有密切的内在关联。
2018 年至 2019 年间,随着短视频及直播应用的兴起,数据形态发生了显著转变。相较于传统以结构化数据为主的应用场景,新兴的视频类应用催生了海量非结构化数据的产生,同时对数据处理的实时性和时效性提出了更高要求。这一背景下,以Apache Iceberg 和 Delta Lake 为代表的数据湖存储格式与架构应运而生。数据平台架构也随之从传统的数据仓库(Data Warehouse)模式,逐步演进为融合结构化数据处理与非结构化数据存储的混合架构,即在保留数据仓库核心功能的基础上,引入数据湖架构以实现多模态数据的统一管理与分析。
以古博今,随着 AI 时代的序幕逐渐拉开,AI 应用的普及对数据的存储和访问模式会产生什么样的变化?
在数据基础设施领域,当前正经历两个层面的关键性变革。首先,非结构化数据的生成速率呈现显著提升趋势,生成式人工智能技术的突破使得数据生产不再局限于人类主体,图片、视频等多媒体内容的自动化生成已成为重要来源。其次,数据产生与访问的主体属性也在发生根本性转变:随着 Agentic AI 的落地,数据生成与调用的主体将逐步从自然人转向智能机器系统。由于人工智能系统具备全天候(7×24小时)持续运作的特性,可以预见数据规模与访问量将呈现几何级数的增长。然而当前主流的数据架构体系,无论是以 Lambda 为代表的 Hybrid 数仓架构,还是"数据湖+数据仓库"的混合架构,均存在数据分布分散、跨系统同步复杂等固有缺陷,难以有效应对新型数据生态带来的挑战。
在 AI 应用场景下,数据同步所引发的冗余存储与计算资源消耗问题正面临严峻挑战。由于 AI 应用对数据访问需求的几何级数增长,数据同步与冗余管理的总体成本将随之呈指数级攀升。这一趋势要求数据基础设施实现根本性变革——数据存储体系必须突破传统分散架构的局限,构建统一化的数据资源池以实现“单一数据源(One Data)”的管理目标。该新型架构需要具备多模态数据的存储与计算能力,能够同时满足结构化、半结构化及非结构化数据的存储需求,并支持多模态数据的并行计算访问。因此,数据架构正从传统的“数据仓库+数据湖”模式向融合型数据湖仓架构演进,其核心特征在于整合了大数据分析、AI 推理与智能搜索的一体化服务能力,这正是人工智能时代对新型数据平台提出的核心诉求。
02
阿里云OpenLake 解决方案
为了有效应对数据平台架构面临的这些新型挑战和需求,阿里云推出了 OpenLake 解决方案,助力客户高效适应人工智能时代的发展潮流。
OpenLake 最底层的 One Data 数据存储就是阿里云的统一对象存储 OSS,OSS 之上可以存储各种各样的结构化、半结构化、非结构化的数据。
为实现对多模态数据更高效、安全和智能化的访问,亟需建立统一的元数据管理体系。作为该体系的核心解决方案,DLF 产品通过承上启下的架构设计,能够系统化采集底层数据的元数据信息,并为上层各类计算引擎提供标准化访问接口,从而实现数据资产的统一管控与服务化输出。
除了数据集中存储和管理之外,OpenLake 还支持多种计算引擎(从长期来看这将不只包含阿里云上的不同计算型产品,而且包括不同云厂商的计算型产品)都能够去访问这份数据,从而真正地实现 One Data。
这是阿里云 OpenLake 解决方案的整体架构框架。接下来为大家详细介绍该架构中涉及的各项核心产品组件。
03
统一的多模态数据管理底座
首先是统一的多模态数据管理底座产品 DLF (Data Lake Formation):
除了提供安全权限管理和元数据管理之外,DLF 还面向 AI 时代的数据特点做了核心设计,其中一个很关键的方面就是管理多模态数据,而多模态数据又主要分为结构化和非结构化两类。
2、AI时代湖格式的演进:Hive - Iceberg - Paimon在结构化数据处理领域,最初的解决方案可追溯至 Hive 系统。作为 Hadoop 生态的重要组件,Hive 本质上是构建于 HDFS 文件系统之上的数据仓库工具,能够为 Spark、Flink、Presto 等异构计算引擎提供统一的数据访问接口。然而,Hive 存在若干显著局限:首先,其事务处理能力薄弱,无法满足高并发场景下的数据一致性需求;其次,Hive 采用拉链表方案实现全量与增量数据合并,存在较大的数据冗余和计算资源消耗;再者,其架构设计未考虑对象存储的支持,限制了系统的灵活性扩展;尤为关键的是,Hive 对非结构化数据处理能力不足,且缺乏 Schema 演化机制,难以适应数据模式动态变化的需求。在此背景下 Iceberg 应运而生,通过引入 ACID 事务保障机制,结合快照隔离与时间旅行(Time Travel)技术,实现了高效全量增量一体化存储;同时,Iceberg 全面支持对象存储架构,并通过灵活的 Schema Evolution 机制,显著提升了对结构化与半结构化数据的兼容性与扩展性。
但 Iceberg 在处理结构化数据的更新与删除操作时仍存在一定的局限性,当业务中包含高频数据更新或删除场景时,其执行效率往往难以满足实际应用需求。
阿里云发起并贡献至 Apache 孵化器并且已经毕业成为顶级项目的 Paimon,在结构化数据领域针对高吞吐场景下的数据更新问题提供了系统性解决方案。而 DLF 产品通过提供全托管 Paimon 存储服务,实现了对结构化数据的高效管理,并且在支持高并发写入与实时更新场景表现尤为突出。
3、DLF AI Lake:Paimon Virtual File System在非结构化数据处理领域,Paimon 系统针对两种典型数据形态提供了优化方案。其一为已存在的数据资产,具体指由 AI 系统生成并存储于对象存储中的数据资源。针对此类数据的高效访问需求,Paimon 提供了虚拟文件系统(Virtual File System)能力,能够将对象存储中的非结构化数据挂载到系统中,形成与标准结构化 Paimon 表并存的"对象表" (Object Table)。通过这种混合架构,系统实现了结构化数据表与非结构化对象表的统一管理。用户可通过标准 SQL 语句同时查询两种数据源,从而实现结构化数据与半结构化数据的无缝集成。这一设计显著简化了业务应用层面对异构数据源的访问复杂度,为数据融合分析提供了统一接口。
4、DLF AI Lake:Paimon + Lance File Format虽然该方案具备可行性,但在效率层面仍存在优化空间,主要原因在于需要对两张表执行两次独立查询后再进行连接操作,这可能增加系统开销。是否能够通过优化查询方式或调整表结构来提升整体性能?
在人工智能技术快速发展的当代,面对多模态数据融合的趋势,新型数据存储格式应运而生。其中值得关注的是 Lance 文件格式(Lance File Format),其创新性地实现了结构化数据与向量化数据的融合存储能力。值得指出的是,Paimon 系统也在研发更高效的存储方案,通过这种新型存储架构,数据可被统一组织为逻辑表结构,从而显著提升查询效率与处理性能。
无论面对结构化数据还是非结构化数据,DLF 产品均提供智能存储优化功能。当前在 AI 应用场景中,数据规模呈现指数级增长态势,同时数据访问频率亦显著提升,这使得存储系统的效率优化与成本控制成为核心竞争力的关键要素。
面向结构化湖格式上小文件的问题,DLF 提供自适应的小文件合并能力。面向非结构化数据,DLF 能够提供不同的数据压缩方式。此外不论对于结构化还是非结构化数据,DLF 都提供基于对象存储的自动冷热分层能力,可以根据数据访问的频率,把不经常访问的数据存储到归档或者冷归档的对象存储里,从而降低整体的存储的成本。
上述是关于统一数据存储和管理底座 DLF 的介绍。在统一的数据底座之上,需要去支持多模态的计算,包括大数据和 AI 的计算。
04
灵活选择的多模态数据计算
接下来分享 OpenLake 解决方案里面有哪些计算类的产品支持。
首先是 Kappa 架构的解决方案,即从 Lambda 架构演化成批流一体、湖流一体的架构。在这一方面阿里云的实时计算 Flink 产品提供了一个全新的解决方案 —— UniFlow。
UniFlow 的核心特性在于其充分利用了 Apache Flink 中物化表(Materialized Table)的能力,允许业务系统通过创建物化表并动态调整数据新鲜度参数的方式,实现成本控制、系统性能与数据时效性之间的灵活平衡。这种设计使用户能够以极简的配置操作,高效应对不同业务场景对数据处理时延与资源消耗的差异化需求。
例如,从传统技术架构来看,我们通常采用 Flink 进行流式数据处理,而批处理任务则可能选择 Flink Batch 或 Spark 实现。假设当前业务场景对数据时效性提出更高要求,例如在促销活动期间需要缩短数据延迟,此时可能需要将数据作业的处理模式从批处理模式转换为流处理模式。然而,若由业务方自行实施此类转换,在实践中会面临相当大的挑战。不论是通过批量生成数据快照并基于此启动流式处理作业,还是是将流式数据回溯至早期时间点重复消费,在实际业务场景中均存在较高的实现复杂度。
采用 UniFlow 解决方案可以对业务屏蔽底层技术细节,从而更加便捷地根据业务需要调整数据新鲜度。具体来说,UniFlow 的底层能够自动进行执行模式的转换,实现流批模式的动态适配,并支持流计算到增量计算再到批处理的模式转换,同时底层数据将实现自动化刷新机制,从而有效帮助业务系统实现计算资源的动态均衡,显著提升处理效率。
除 Kappa 架构方案外,用户仍可采用传统 Lambda 架构模式构建其数据处理链路,即通过 Flink 负责流式数据入湖,结合 Spark 执行批量 ETL 计算任务,最终利用StarRocks 或者 Doris 等 OLAP 系统完成数据查询与分析。这种混合架构在实际业务场景下仍具备应用价值,并且能够满足更加多样化的业务需求。
阿里云 EMR 提供全托管的 Serverless Spark 和 Serverless StarRocks 产品,支持面向 DLF 统一管理的数据进行批流处理和 OLAP 分析。
除了开源的大数据产品之外,在阿里云上也提供自研的大数据产品 —— MaxCompute 和 Hologres。从定位上来说,MaxCompute 主要负责批量处理,而 Hologres 主要负责 OLAP 分析。
4、基于 MaxCompute MaxFrame 的 Data+AI 一体化在大数据技术之外,当前一个重要的技术方向是 Data+AI 融合,即数据与人工智能技术的深度整合。阿里云为此提供了完整的解决方案:用户可通过结合MaxCompute 产品的 MaxFrame 功能与阿里云 PAI 服务,构建大语言模型所需的全流程场景,包括数据预处理与数据推送。具体而言,AI 生成的数据可通过对象存储模式挂载至 Paimon 系统中,随后借助 MaxCompute 的统一 SQL 接口,实现对结构化与非结构化数据的联合查询。此外,用户还可通过 Python 编程语言调用相关接口完成数据访问与处理。该方案通过技术组件的协同,实现了从数据预处理到模型训练的全链路支持,兼顾了结构化与非结构化数据的统一管理需求。
如果更倾向于使用开源产品,可以将 MaxCompute MaxFrame 更换为在 EMR Serverless Spark 产品中使用 PySpark。
5、基于 OpenSearch 构建企业级 RAG 系统与多模态搜索在大数据与人工智能技术应用之外,智能化搜索(AI Search)是另一重要领域。该技术通过多路召回机制实现对结构化、半结构化及非结构化数据的统一高效访问,其应用场景包括构建 RAG 系统、提供模型服务等。这些场景均需依托数据湖仓架构实现对数据的快速读写与高效存取。阿里云通过 Open Search 产品为数据湖仓架构中的 AI 搜索应用场景提供了核心支撑能力。
最后对全篇内容做一个概要总结:面向 AI 时代的数据平台架构演进需求,阿里云推出了 OpenLake 解决方案。该方案以对象存储 OSS 为统一数据底座,通过数据湖仓管理平台 DLF 实现全域数据的存储和安全、权限、元数据管理,并在此基础上提供了丰富的计算场景支持,包括使用阿里云实时计算 Flink (VVP) 产品的 UniFlow 能力构建新一代流式湖仓、使用 EMR Serverless Spark 和 Serverless StarRocks 产品构建数据湖仓、使用 MaxCompute 和 Hologres 产品对湖仓数据进行离线实时一体化处理、使用 MaxFrame 和 PAI 产品实现 Data+AI 一体化处理、基于 OpenSearch 产品构建企业级 RAG 系统与多模态搜索,同时提供 DataWorks 平台助力企业用户实现高效的大数据 AI 搜索一体化应用开发。
以上就是全部分享内容,谢谢大家。
来源:DataFunTalk