数据库 频道

Databricks放大招,通过Delta Lake 3.0统一数据格式

Databricks宣布在Delta Lake 3.0中推出了一种新的开放表格式,据称这将消除选错表的可能性。新的表格式被称为通用格式(UniForm),可以读写所有三种流行的数据表格式,包括Delta Table、Apache Iceberg和Apache Hudi。

开放表格式通过提供一个标准和一致的方式来访问大数据集来帮助客户。在Hadoop时代的混乱和对Apache Hive元存储的过度依赖之后,企业在三种开放表格式中的任何一种下都能体验到的平静和可靠的数据,被视为大数据管理的重大改进。

无论是Databricks自己的Delta Table,还是Netflix和苹果公司的Apache Iceberg项目,或是Uber大数据团队的Apache Hudi项目,这些表格式都提供了类似的功能。最重要的是,它们为企业提供了数据不会被破坏的保证,当多个用户和数据处理引擎访问相同的数据时,在交易过程中可以依赖这些数据--这是Hadoop用户想出的办法。

在过去的几年里,开放表格式的积极影响一直在增长。虽然Hudi可以说是市场上首个,但由于Snowflake、AWS和Cloudera等数据平台供应商的支持,Iceberg在过去18个月里的发展一直非常迅猛。Databricks开发了自己的Delta Table格式,一年前在2022年数据+人工智能峰会上将Delta Table格式的剩余部分贡献给了开源,从而回应了对开放表格式日益增长的需求。

但是,据Databricks首席执行官兼联合创始人Ali Ghodsi说,看起来像是一场在开放市场上上演的老式技术霸主之争,实际上有一个更黑暗的一面。

“现在,我必须要挑选。我该选哪种颜色?如果我选错了颜色,我可能会被解雇,”Ghodsi在旧金山举行的2023年数据+人工智能峰会的新闻发布会上说。

Ghodsi说,正如消费者在20世纪80年代的录像带战争中被夹在中间,彼时JVC的开放式VHS标准与索尼的技术优势但专有的Betamax格式之间的竞争,目前的开放式表格式战争,即Delta Table与Iceberg与Hudi之间的竞争,威胁着试图在Lakehouse中取得进展的客户的福祉。

换句话说,没有人愿意被困在相当于几十盘Beta磁带的大数据中(即使它们在技术上很优越)。

“现在都在谈论格式之争,这其实是非常不幸的,”这位2019年Datanami观察人士继续说道。“我们实现了数据的民主化。我们把它从这些数据仓库里拿出来。我们让它变得更便宜。但你必须选择你想要的口味。而一旦你选择了你最喜欢的口味,如果你选择了蓝色、红色或绿色,你就会永远停留在这个颜色上。这很不幸。”

Ghodsi说,一些供应商希望这场战争发生。虽然他没有指名道姓,但他说这场战争有助于竞争厂商的地位,“因为人们不使用这些开源格式符合他们的利益,”他说。

因此,Databricks公司决定采取一些措施。Databricks的客户现在可以采用通用格式,即UniForm,并将他们的数据暴露在Delta Lake、Iceberg或Hudi的处理引擎中,而不是要求客户在其Delta Lake平台中存储数据时使用其Delta Lake格式,这对Hudi和Iceberg是不利的。

Ghodsi解释了UniForm如何工作:

“通用格式意味着我们在Delta内部为所有三个项目-Delta、Hudi、Iceberg-生成元数据,”他说。“元数据是非常便宜的。昂贵的部分是所有的大数据,而那只是以一种叫做Parquet的格式存储一次。”

Ghodsi说,虽然元数据只占总数据有效载荷的一小部分,不到1%,而且如果用户愿意,可以关闭它。但它仍然非常重要。

“如果你把元数据弄错了,你实际上就不能很好地访问,”他说。“所以元数据在每个项目上都是不同的。但是元数据实际上是相当小的。因为这三个项目都是开源的,所以我们只是去了解在每个项目中到底该怎么做。”

“现在在Databricks内部,当我们创建数据时,我们为所有三个项目创建元数据,”他继续说道。“因此,任何认为自己在与Iceberg数据集对话的人,Iceberg的元数据就在那里,而所有的数据都在Parquet中,而且它是有效的。”

像Delta Table一样,UniForm格式是开源的,这意味着其他组织甚至供应商也可以采用它。只有时间能证明UniForm的发展,不管竞品是否会跟进,在任何情况下,Ghodsi做的是有利于Databricks客户的事。

“我们统一并消除了格式之争,我们使数据民主化,所以我们对此感到非常兴奋,”他说。“我认为这对很多企业来说很重要……现在你可以选择Delta,而且它支持所有的颜色。你可以得到你喜欢的任何一种口味”。

Delta Table 3.0还有其他的增强功能,包括Delta Kernel和Liquid Clustering。

Databricks说,新的Delta Kernel将解决“连接器碎片化”问题,确保将数据带入Delta Lake的数据连接器是根据一个不会改变的标准规范建立的。这将有助于减少持续调整连接器的需要,以解决Delta中使用的每个新版本或协议变化。

“有了一个稳定的API来编码,Delta生态系统中的开发者能够无缝地使他们的连接器与最新的Delta创新保持同步,而不必重新制作连接器。”Databricks说。

Databricks说,新的Liquid Clustering增强功能将帮助数据架构师确保其不断增长的大数据系统的最高性能。它通过放弃使用固定数据布局的传统Hive式分区,而采用灵活的数据布局格式来实现这一目标。虽然Hive式分区可能会提高读取性能,但它是以数据管理的更大复杂性为代价的。

该公司表示,Delta Lake 3.0将在2023年下半年推出。

0
相关文章