摘要:大约八年前,当企业在数据湖的随心所欲和数据仓库的繁琐之间寻找中间地带时,Lakehouse出现了,这种架构模式吸引了一些追随者,但增长并不显著。然而,随着 2025 年的到来,Lakehouse将在多种因素的共同作用下实现强劲增长。
大约八年前,当企业在数据湖的随心所欲和数据仓库的繁琐之间寻找中间地带时,Lakehouse出现了,这种架构模式吸引了一些追随者,但增长并不显著。然而,随着 2025 年的到来,Lakehouse将在多种因素的共同作用下实现强劲增长。
2010年大数据时代来临之际,Hadoop成为最热门的技术,因为它提供了一种方法,利用廉价的X86服务器构建大型集群,存储和处理PB级数据,比之前基于专用硬件构建的昂贵数据仓库和设备便宜得多。
Hadoop集群允许客户将大量半结构化和非结构化数据转储到分布式文件系统中,因此被称为 “数据湖”。客户可以根据自己的特定分析需求按需处理和转换数据,也就是所谓的 “读取结构 ”方法。
这与当时典型的数据仓库使用的 “写入结构 ”方法截然不同。在 Hadoop 出现之前,客户需要花时间转换和清理他们的事务数据,然后再将其加载到数据仓库中。这显然更耗时、更昂贵,但为了最大限度地利用昂贵的存储和计算资源,这是必要的。
随着Hadoop试验的深入,许多客户发现他们的数据湖变成了数据沼泽。虽然将原始数据转入HDFS或S3从根本上增加了他们可以保留的数据量,但这是以降低数据质量为代价的。具体来说,Hadoop缺乏让客户有效管理数据的控制措施,这导致客户对Hadoop分析的信任度降低。
到2010年代中期,几个独立团队开始研究解决方案。第一个团队由 Uber 的工程师 Vinoth Chandar 领导,他需要解决共享单车应用的快速移动文件问题。Chandar领导开发了一种表格式,让 Hadoop 可以更像传统数据库一样处理数据。他将其命名为 Hudi,即Hadoop upserts、deletes和incrementals的缩写。2016 年,Uber 部署了 Hudi。
一年后,另外两个团队也针对HDFS和S3数据湖推出了类似的解决方案。Netflix工程师Ryan Blue和苹果工程师Daniel Weeks合作创建了一种名为Iceberg的表格式,旨在为Apache Hive表带来类似ACID的事务处理能力和回滚功能。同年,Databricks 推出了Delta Lake,将数据仓库的数据结构功能与云数据湖融为一体,为数据管理和数据质量带来了 “好、更好、最好 ”的效果。
这三种表格格式在很大程度上推动了Lakehouse的发展,因为它们允许将传统数据库数据管理技术作为 Hadoop 和 S3 式数据湖之上的一层加以应用。这为客户提供了两全其美的解决方案:数据湖的可扩展性和经济性,以及数据仓库的数据质量和可靠性。
其他数据平台也开始采用其中一种表格式,包括AWS、谷歌云和Snowflake。Iceberg于2020年成为Apache的顶 级项目,它的大部分影响力来自开源Hadoop生态系统。Databricks最初对 Delta Lake 及其底层表格式保持密切关注,后来才逐渐开放,随着这家公司迅速增加客户,它也变得很受欢迎。Hudi 于 2019 年成为顶 级Apache项目,是第三受欢迎的格式。
Apache Iceberg和Delta Lake之间的表格式霸主之争陷入僵局。随后,在2024年6月,Snowflake通过为Iceberg推出名为 Polaris(现在的 Apache Polaris)的元数据目录,加强了对Iceberg的支持。一天后,Databricks宣布以10亿至20亿美元的价格收购Blue、Weeks和前Netflix 工程师Jason Reid创办的Iceberg公司Tabular。
Databricks高管宣布,随着时间的推移,Iceberg和Delta Lake格式将被整合到一起。“我们将在数据兼容性方面引领潮流,让你不再受限于Lakehouse的格式。”以首席执行官Ali Ghodsi为首的高管们表示。
Polaris的发布以及对Tabular的收购产生了巨大的影响,尤其是对开发独立查询引擎的供应商社区而言,这立即推动了 Apache Iceberg的发展势头。Dremio 的首席营销官Read Maloney去年6月对我们说:“如果你是Iceberg社区的一员,现在正是进入下一个时代的好时机。”
七个月后,这一势头依然强劲。上周,Dremio发布了一份题为 “人工智能时代的Lakehouse状态 ”的新报告,发现Lakehouse(现在默认情况下被认为是基于Iceberg的Lakehouse)获得了越来越多的支持。
Dremio在报告中说:“我们的分析显示,Lakehouse已经达到了一个关键的采用临界点,55%的企业在这些平台上运行其大部分分析功能,”该报告基于McKnight Consulting Group对563名数据决策者进行的第四季度调查。“根据受访者的预测,这一数字将在未来三年内达到67%,这表明企业数据战略发生了明显的转变。”
Dremio表示,成本效益仍然是Lakehouse增长背后的主要驱动力,19%的受访者提到了这一点,其次是统一数据访问和增强易用性(分别为17%)以及自助服务分析(13%)。Dremio发现,41%的Lakehouse用户是从云数据仓库迁移而来,23%的用户是从标准数据湖过渡而来。
更好、更开放的数据分析是迁移到Lakehouse的主要原因,但Dremio发现,使用Lakehouse支持另一种用例的客户数量令人惊讶:人工智能开发。
该公司发现,85%的Lakehouse用户目前正在使用他们的仓库开发人工智能模型,另有11%的用户在调查中表示他们计划这样做。只有4%的Lakehouse用户表示他们没有支持人工智能开发的计划;基本上每个人都是如此。
尽管目前对人工智能的追求普遍存在,但在企业真正实现人工智能梦想之前,仍有诸多重大障碍需要克服。Dremio在其调查中发现,企业在通过人工智能数据预处理取得成功方面面临严峻挑战。具体而言,36%的受访者表示,人工智能用例的治理与安全是首要挑战,其次是成本高昂和复杂性(占比 33%),以及缺乏统一的AI就绪基础设施(占比 20%)。
Dremio产品管理副总裁James Rowland-Jones(JRJ)表示,Lakehouse架构是创建管理良好、可广泛访问的数据产品的关键要素,这对于企业更轻松地开发人工智能应用至关重要。
“关键在于他们如何共享以及数据带来了什么。”JRJ在上个月举行的re:Invent大会上对BigDATAwire说,“如何丰富数据?作为最终用户,你如何理解和推理这些数据?你能获得数据的统计样本吗?你能感受到这些数据是什么吗?数据是否有据可查?是否有章可循?是否有词汇表?这些词汇表是否可以在不同的视图中重复使用,从而避免重复劳动?”
Dremio以开发开放式查询引擎而闻名,该引擎在Apache 2.0许可下可用,可以在各种不同的后端运行,包括数据库、HDFS、S3以及其他文件系统和对象存储。不过,该公司最近一直在加大力度打造一个可在任何地方(包括在主流云、本地部署和混合部署中)运行的完整Lakehouse平台。该公司是Iceberg公司元数据目录Project Nessie的早期支持者。公司高管在re:Invent大会上表示,2025年,公司计划将更多精力放在加强数据治理、安全性和构建数据产品上。
基于Iceberg的开放式湖泊平台崛起的最大受益者是企业,它们不再受制于单片式云平台供应商,这些供应商希望锁定客户的数据,以便从客户身上榨取更多的利润。Lakehouses兴起的一个副作用是,像Dremio这样的供应商现在有能力向客户出售自己的产品,客户可以自由挑选查询引擎,以满足自己的特定需求。
“数据架构正处于一个关键时刻,人工智能和高级分析的需求正在改变传统的数据管理方法。” Maloney在一份新闻稿中说,“这份报告强调了企业如何以及为什么要利用数据湖泊来推动创新,同时解决成本效率、治理和人工智能准备等关键挑战。”
来源:IT168企业级