S3云计算存储两大新功能瞄准AI需求,超大型数据表查询快3倍

B站影视 2024-12-05 18:41 9

摘要:AWS首席执行官Matt Garman在今年度re:Invent 2024技术年会中,宣布几项云计算存储服务Amazon S3的重要新功能,包括原生支持数据湖数据格式Iceberg的Amazon S3 Tables,大型数据表查询速度可以提高3倍,以及能自动产

AWS首席执行官Matt Garman在今年度re:Invent 2024技术年会中,宣布几项云计算存储服务Amazon S3的重要新功能,包括原生支持数据湖数据格式Iceberg的Amazon S3 Tables,大型数据表查询速度可以提高3倍,以及能自动产生对象Metadata的Amazon S3 Metadata预览版,这两大新功能都是为应对AI需求而设计。

要让云计算存储服务贴近AI需求

在今日主题演讲中,Matt Garman点出,运算、存储、数据库和AI推论,是AWS新战略的4大重要基石。

就存储来说,随着新技术推陈出新,“存储模式也改变了。”Matt Garman回顾,AWS最早推出Amazon S3云计算存储服务,至今已有18年,拥有上百万名用户,处理了400兆个对象。Amazon S3服务在这18年间,也发展出几代新服务,比如前几年推出的S3 Intelligent-Tiering,能自动化协助处理PB级甚至是EB级的巨量数据,帮所有用户省下了40亿美元。

然而,“S3团队一直在思考,如何让S3更好。”存储产品线出身的Matt Garman指出,随着AI越来越融入各行各业的业务,团队后来聚焦,要让S3更符合目前的AI需求。

如何让云计算存储服务贴近AI需求?Matt Garman解释,S3专门用来执行数据湖,而AI分析大都依赖数据湖。其中,绝大多数的分析数据是表格形式,用来查询非常有效率,而这些数据表大多采Apache Parquet数据格式,“这类Parquet数据,也是S3中增长速度最快的数据类型。”

他进一步指出,有些S3客户拥有数百万、数十亿的Parquet文件,要有效率查询这些数据,一种主流做法是使用Apache Iceberg数据表格式,来简化数据湖中巨量数据集的数据处理。但,用Iceberg扩展管理巨量数据,还是很有挑战性,甚至安全性、访问权限等管控也是难题。

2大新功能加速Iceberg数据查询和交易量,还能自动产生Metadata

在今年年会中,AWS正式推出Amazon S3 Tables新功能,能3倍加速Iceberg表格的查询性能,每秒还能提高10倍交易量。而且,该功能还能自动管理表维护工作,就算用户的数据湖不断扩展,也是如此。再来,S3 Tables还提供表格级访问控制,用户可自己定义权限。

不过,“要找到所需数据,还是有挑战性。”但要是有元数据(Metadata)辅助,就能更好地找到所需数据,或是理解数据。

于是,AWS推出另一个存储服务的新功能:Amazon S3 Metadata预览版,能近乎即时,自动产生可供查询的对象Metadata,来帮助用户更快找寻数据、用于AI分析等。

来源:我凯辰韩

相关推荐