Apache Iceberg打破开源复杂性的迷思

B站影视 欧美电影 2025-09-14 19:00 1

摘要:文章讨论了关于开源数据格式 Apache Iceberg 的三个常见误解:安全性与性能、迁移的复杂性以及增加的复杂性。文章通过分析,阐明 Iceberg 在性能、安全性、迁移便捷性以及简化数据架构方面的优势,强调其为企业 AI 成功提供动力。

文章讨论了关于开源数据格式 Apache Iceberg 的三个常见误解:安全性与性能、迁移的复杂性以及增加的复杂性。文章通过分析,阐明 Iceberg 在性能、安全性、迁移便捷性以及简化数据架构方面的优势,强调其为企业 AI 成功提供动力。

译自:Dispelling Myths of Open Source Complexity With Apache Iceberg

作者:Russell Spitzer

虽然大家都认同构建一个 AI 就绪的数据基础的重要性,但对于构建它的正确工具,往往存在脱节。工程师们希望利用开源软件的灵活性和对互操作性的强调。另一方面,商业领袖们则持怀疑态度,担心感知到的复杂性和缺乏企业级能力。

这些围绕开源采用的常见犹豫,往往是基于过时的假设。现代开放数据方法现在是高性能、安全、适应性强且灵活的。这种架构不仅简化了数据格局;它还帮助组织更快地行动,降低复杂性,并最终从其数据中获得更多洞察。为了帮助企业对开源可以解锁的价值更有信心,并鼓励技术和业务领导层之间更大的协调,解开对开源的误解,并说明开放数据之旅——特别是与 Apache Iceberg 的结合——如何能够为他们的 AI 成功提供动力,将会有所帮助。

误解 1:专有软件更安全、性能更高

神话

从专有的“手工设计”格式转变为开放格式意味着牺牲性能和安全性。

现实

Apache Iceberg 分享了 许多专有表格式的技术,并使用行业标准的、元数据驱动的方法来进行查询规划。与依赖本地存储和快速文件访问的上一代表格式不同,Iceberg 的元数据方法通过优化基于云的数据来提高性能。它没有浪费时间列出和检查文件(在云中这是一个缓慢而昂贵的过程),而是使用包含文件统计信息的元数据层,使查询引擎能够快速修剪不必要的数据。这减少了昂贵的 S3 操作,并允许更快的查询执行和更低的计算成本。

Iceberg 的主要安全优势在于其开放和标准化的格式。作为一个 Apache 软件基金会项目,它的规范是公开的并且与供应商无关,防止了供应商锁定,并允许与各种开放和专有工具和安全系统集成。由于此功能,组织不会被绑定到单个平台或供应商的安全模型。相反,他们可以利用强大的、行业标准的解决方案来进行加密、访问控制和审计。

此外,旧格式没有为 GDPR 等现代数据治理要求做好准备,但 Iceberg 的构建旨在高效且大规模地处理这些要求。Iceberg 通过将数据视为结构化表而不是仅仅是文件集合来解决旧的基于文件系统的局限性,从而实现细粒度的、行级别的操作,这对于合规性至关重要。

业务影响

虽然专有格式通常针对一个引擎进行定制调整,但 Iceberg 提供了一个更有价值的权衡:通用的互操作性。这使企业可以使用单一的数据副本,与市场上每个主要的查询和转换引擎一起使用,从而消除供应商锁定,并使企业能够在任何给定时间选择最适合工作的工具。有了 Iceberg,数据惯性已成为过去。可以立即测试和使用新引擎,而无需 ETL 或耗时的迁移。对于强大而长期的数据战略而言,这是一种战略优势,胜过细微的性能差异,并且这些差异在不断减少。

误解 2:迁移到新格式是一场噩梦

神话

从旧格式过渡到 Iceberg 是一个复杂、昂贵且高风险的项目。

现实

Iceberg 从第一天起就考虑到了从其他基于文件的表进行迁移。它的设计包括用于非破坏性地导入和迁移表的内置功能,这意味着您可以在不中断现有数据管道的情况下集成 Iceberg。这允许分阶段推出,团队可以保持其旧管道的运行,直到他们准备好切换。另一个关键优势是就地迁移,它允许您在现有的 Parquet、Avro 或 Optimized Row Columnar (ORC) 数据文件之上生成 Iceberg 元数据文件。这种方法显着更快且更具成本效益,因为它避免了用户复制大量数据。

Iceberg 的开放和可互操作的特性意味着企业可以将其与当前的查询引擎和工具集成,从而实现逐步采用和分阶段推出。社区已经开发了清晰的、逐步的迁移模式,证明该过程是定义明确且可靠的。这使企业可以首先为新项目或关键表采用 Iceberg,然后在全面迁移之前完善其方法。

业务影响

Iceberg 生态系统已经显着成熟,许多云提供商和数据平台现在提供内置支持和工具来简化迁移过程。这种强大的支持使公司更容易转向开放、可扩展且受治理的数据平台。

健康追踪器供应商 WHOOP 就是一个很好的例子,它使用这种转型来显着改善其运营。通过采用具有 Snowflake 和 Apache Iceberg 的统一平台,WHOOP 能够显着减少基础设施开销,每天节省 20 小时 的计算时间,每月节省数万美元。

除了易于迁移之外,Iceberg 的互操作性还意味着团队可以将他们已经使用的熟悉的关联概念应用于他们的大规模数据集。这种转变使他们能够将注意力从编写和调试复杂的多步骤自定义事务逻辑转移到简单地使用高效的 MERGE INTO 语句。最终,这使他们有更多时间专注于创新并从他们的数据中获得业务价值。

误解 3:开源增加了复杂性

神话

一个新的开放标准将为已经庞大的数据基础设施增加另一层复杂性。

现实

是的,工具蔓延是真实存在的,没有人希望加剧这个问题。这就是为什么 Iceberg 的核心优势是架构简化。Iceberg 允许每个引擎使用数据的单个副本,而无需多个具有昂贵的后台进程的系统来保持数据同步。可以将多种类型的现有表转换为 Iceberg,从而大大降低数据架构的整体复杂性。

除此之外,诸如时间旅行和事务语义之类的功能直接构建到 Iceberg 中,从而无需自定义工程即可实现这些功能。借助时间旅行,企业可以立即审核数据更改,甚至可以恢复过去的版本,这对于合规性和调试至关重要。事务语义确保了并发操作期间的数据完整性,使团队对分析的准确性充满信心。这使团队的重点从管理复杂的基础设施转移到创造业务价值。

业务影响

开源为企业提供了灵活性和可互操作的功能,这些功能提供了竞争优势,可以保持敏捷性,并且不会被锁定在任何单个供应商中。通过提供更清晰的数据统一路径,Iceberg 帮助组织消除数据孤岛,以加速获得洞察力,并激活他们可能拥有但尚未从中释放价值的大量数据。开放标准是面向未来的数据战略的关键,并使企业能够采用新兴的令人兴奋的新技术,而不会产生摩擦。

未来是开放的

人们认为的开源风险实际上是解锁更大的简单性、可靠性和业务价值的关键。数据的未来不是在开源和专有系统之间做出选择,而是两者的和谐融合——像 Iceberg 这样的开放标准为企业 AI 的蓬勃发展提供了必要的基础。通过解决数据工程难题,例如基础设施调整、不同的工具和复杂的数据架构,企业正在为 AI 的成功构建必要的基础。新工具的设计考虑到了 Iceberg,这意味着如果您的数据已经在 Iceberg 表中,它就可以用于任何新兴的新技术,尤其是在 AI 领域。这种真正可互操作的格式可确保企业的数据不仅是一种资产,而且是为未来做好准备的动态基础,以应对未来的任何发展。

Iceberg 入门

随着对开源的误解被消除,您可能想知道如何开始您的 Iceberg 之旅。评估从哪里开始可能会让人感到气馁,但战略性的方法可以确保成功。通过执行以下步骤,您可以开始将您的数据基础设施从复杂的基础设施转变为简单的基础设施,从而为更高效的运营和加速的业务价值铺平道路:

步骤 1:识别复杂性。 确定您当前的基础设施中哪里遇到最多的复杂性。探索在单一的、受治理的数据副本上工作的多个工具如何简化事情。

步骤 2:定义成功。 确定潜在测试的成功会是什么样子。您的目的是减少数据管道/副本吗?目标是更快的服务级别协议 (SLA) 吗?

步骤 3:评估解决方案。 评估专注于简化您的架构的解决方案,以充分利用这种向 Iceberg 的转型价值。

这种方法可确保您最初采用 Iceberg 是战略性的并且是成功的,从而建立一个基础,该基础将作为未来创新和增长的启动平台,因此您已为 AI 时代做好准备。

来源:孤独难学科技

相关推荐