6月4日,Databricks 宣布收购 Apache Iceberg 表格式背后的商业机构 Tabular,Iceberg表格式与 Databricks 自己的 Delta 格式存在竞争关系,为 Databricks 客户在其Lakehouse环境中享受更多的统一性和更少的不兼容性铺平了道路。Databricks 证实,这笔交易的价值超过 10 亿美元。
开放表格式已成为Lakehouse的新战场,这些Lakehouse数据平台融合了数据湖的可扩展性和灵活性以及传统数据仓库的 ACID 事务性和可靠性。
Apache Hudi、Apache Iceberg 和 Databricks 的 Delta 在开放表格式的竞争中一直处于三足鼎立的局面。Hudi 是在 Uber 开发的,而 Iceberg 的开发主要归功于 Netflix 和苹果公司。
Ryan Blue在 Netflix 工作时与Dan Weeks共同创建了 Iceberg,2021 年,他与Weeks和另一位 Netflix 前同事Jason Reid共同创建了 Tabular 公司,在 Iceberg 环境中实现Lakehouse管理自动化。去年,该公司将其云Lakehouse服务推向市场,并获得了2600万美元融资。
Databricks公司在一篇博客文章中宣布了此次收购,该公司高管表示,合并Iceberg和Delta背后的团队将为客户带来更多选择和更少的不兼容性。
“作为一个整体,我们将在数据兼容性方面引领潮流,让您不再受限于您的数据所采用的Lakehouse格式。”Ali Ghodsi、Arsalan Tavakoli-Shiraji、Reynold Xin 和 Adam Conway 写道,“我们期待着交易完成,我们很高兴能与他们合作,共同实现开放Lakehouse的愿景。”
Databricks 向 Datanami 证实,这笔交易的估值超过 10 亿美元。该交易预计将在截至 7 月 31 日的公司第二季度末完成。
Databricks 公司高管解释了他们收购一家与其首选表格格式竞争的公司的理由:
“这两个项目已成为两大领先的 Lakehouse 格式开源标准。”他们写道,“不幸的是,尽管这两种格式都基于 Apache Parquet,并且有着相似的目标和设计,但由于各自独立开发,它们变得不兼容。”
“随着时间的推移,其他一些开源和专有引擎也采用了这些格式。不过,它们通常只采用其中一种标准,而且往往只采用该标准的一部分。这实际上割裂和孤立了企业数据,削弱了Lakehouse架构的价值。”
高管们写道,实现数据互操作性需要 Iceberg和Delta 社区的共同努力。
“我们打算与冰山和三角洲湖社区密切合作,将互操作性带入格式本身。”他们写道,“这是一个漫长的过程,可能需要几年的时间才能在这些社区实现。这就是我们去年向全世界推出 Delta Lake UniForm 的原因。”
近几个月来,在独立软件供应商的大力支持下,Iceberg 已成为领先的开放式表格格式。其中,Snowflake 在数据分析和人工智能工作负载方面与 Databricks 直接竞争。Snowflake 刚在其峰会上宣布了对 Iceberg 表的支持全面可用,在开放的道路上迈出了重要一步,但 Databricks收购Tabular 可能会影响市场的发展。
如果 Delta 和 Iceberg 可能实现统一,那么 Apache Hudi 将成为仅存的独立表格式。Hudi 背后的公司 Onehouse 正在支持一个名为 Apache XTable 的新开源项目,这是一种开放的交换格式,为 Hudi、Delta 和 Iceberg 提供读写兼容性,可能会使格式之间的差异变得毫无意义。