Oracle 宣布推出 MySQL HeatWave Lakehouse,让客户能够像在数据库内查询数据一样快地查询对象存储中的数据。MySQL HeatWave Lakehouse支持各种文件格式(例如 CSV、Parquet)和从其他数据库导出的文件,并且可以在同一查询中将对象存储文件数据与 MySQL 数据库中的数据相结合。对象存储中的文件由 HeatWave 直接查询,而无需将数据复制到 MySQL 数据库中。因此,在对象存储中查询数据方面,MySQL HeatWave Lakehouse 为查询处理、数据加载速度、集群预配时间和自动化奠定了新的可扩展性和性能标准。
甲骨文公司首席企业架构师 Edward Screven 表示:“超过 80% 的数据存储在文件系统中,该数字还在不断增长。客户希望将各种外部数据与内部事务处理数据集成和分析,但处理起来往往过于复杂或成本太高。MySQL HeatWave Lakehouse 能够帮助客户将对象存储中的数据与数据库数据结合在一起,让客户能够轻松获得宝贵的实时洞察,同时显著提高查询性能并降低数据加载速度。”
对象存储中的数据查询速度,与数据库中的数据查询速度一样快
如 10 TB TPC-H* 基准测试所示,使用 MySQL HeatWave Lakehouse 以常用文件格式查询对象存储中的数据的速度,与在 MySQL 数据库中查询数据的速度一样快。这是因为 MySQL HeatWave 的内置功能 MySQL Autopilot 提供了基于机器学习的自动化,可以从查询执行中学习,并改进未来查询的执行计划。MySQL Autopilot 是 MySQL HeatWave 一项特别的创新功能。基于 Oracle 云基础设施远程软件服务(Oracle Cloud Infrastructure, OCI)的 MySQL HeatWave 采用 AMD EPYC™ 处理器。
AMD 数据中心解决方案业务小组执行副总裁兼总经理 Forrest Norrod 表示:“AMD 和 MySQL HeatWave 工程团队正在密切合作,合力优化 AMD EPYC 处理器与 MySQL HeatWave 的性能,以利用新的处理器功能。得益于本次合作,在 AMD EPYC CPU 驱动的 OCI 实例上运行 MySQL HeatWave 的 MySQL 客户可在关键业务工作负载方面获得较为突出的性价比,其中包括针对海量对象存储数据的实时分析。”
数据湖仓一体的查询性能十分亮眼
MySQL HeatWave 的性能源自于其横向扩展架构,该架构支持通过大规模并行来配置集群、加载数据和处理高达 512 个节点的查询。此外,MySQL Autopilot 的增强功能可自动为对象文件创建元数据,并动态适应底层对象存储的性能,确保在 OCI 区域中都能提供出色的性能。
MySQL HeatWave 是重要的云端服务,可在单一的 MySQL 数据库服务中提供事务处理、实时分析、机器学习、数据池查询和基于机器学习的自动化功能。作为 #FormatImgID_1#Oracle Distributed Cloud 策略的核心,MySQL HeatWave 在 OCI 中提供,在 Amazon Web Services 中原生提供,作为 Oracle Database Service for Azure 的一部分提供,以及通过 OCI Dedicated Region 在客户数据中心内提供。
Natura&Co 解决方案架构师 Fabricio Rucci 表示:“数据呈指数级增长,我们在数据湖中存储的数据量也是如此。能够使用标准 MySQL 语法,在数据库和对象存储中查询数据获得实时洞察,这一点对 Natura 而言非常重要。这为我们提供了新的机会,如果我们可以比竞争对手更快地分析所有的数据,就可能获得新的竞争优势。”
德勤咨询公司 (Deloitte Consulting) 云基础设施与工程团队负责人 Henry Tullis 表示:“无论是从对象存储加载数据,还是在对象存储上运行查询,HeatWave Lakehouse 都展示了良好的可扩展性。随着数据量以及 HeatWave 集群大小的增加,加载时间和查询时间几乎保持不变。HeatWave Lakehouse 在数据管理方面的这种横向扩展特性是高效处理大量数据的关键。”
Constellation Research 副总裁兼首席分析师 Holger Mueller 表示:“自大数据出现以来,大数据/湖仓一体查询的速度大大低于事务查询速度。MySQL HeatWave 打破了这一局面,证明了 Lakehouse 可以实现与事务查询同等的性能,这是很多人未曾听过、未曾想过的。通过查询性能奇偶校验,HeatWave 使 CxOs 无需再担心数据需要存储在哪里、如何查询数据。其中的秘诀在于能够优化查询的 HeatWave 的 Autopilot。HeatWave 团队再一次取得了业内突破性成果。”