数据库 频道

Databricks 将开源 Unity Catalog

在6月12日举行的数据与人工智能峰会(Data + AI Summit)上,Databricks 宣布将开源 Unity Catalog,即管理用户和计算引擎如何访问数据的元数据目录。继上周有关 Apache Iceberg 的新闻之后,此举标志着 Databricks 的重要转变,因为客户对开放式Lakehouse平台的需求日益增长,Databricks 正努力保持发展势头。

Databricks 早在 2021 年就推出了 Unity Catalog,用于管理和安全访问存储在 Delta 中的数据,Delta 是 Databricks 于 2017 年创建的表格格式,是其Lakehouse战略的关键。此后,它一直是 Databricks 的专有产品。

但近年来,一种与之竞争的表格式 Apache Iceberg 在大数据生态系统中势头强劲。为了应对 Iceberg 的崛起,Databricks 上周计划收购 Iceberg 背后商业公司 Tabular。Databricks 的战略是,随着时间的推移,逐渐将 Iceberg 和 Delta 的规范靠拢,从而消除它们之间的差异。

这样一来,简陋的元数据目录就成了阻挡客户实现真正开放数据Lakehouse的最后一块障碍。Databricks 的竞争对手 Snowflake 上周推出了基于 Iceberg REST API 的 Polaris,解决了元数据目录的潜在锁定问题。Snowflake 公司告诉 Datanami,它计划在 90 天内将 Polaris 项目捐赠给开源组织,可能是阿帕奇软件基金会。

这样一来,仍然专有的 Unity Catalog 就成了元数据目录层的异类,而开放Lakehouse的新时代却突然到来。为了应对市场的战略转变,Databricks 决定开源 Unity Catalog。

Databricks 首席执行官Ali Ghodsi在旧金山举行的 Databricks 数据与人工智能峰会上发表主题演讲时表示,此举为数据访问创造了“USB”。

“(打破)你以前所有孤岛,他们只需访问一份标准化USB格式的数据。”Ghodsi说,你的所有数据都要经过一个标准化的治理层,那就是 Unity Catalog。

Ghodsi 指出,Unity Catalog 以前支持 Delta 和 Iceberg,此外还通过 Databricks 的 Delta Lake UniForm 格式支持另一种开放表格式 Apache Hudi。事实上,Unity Catalog 还支持 Iceberg 基于 REST 的 API。

“我们基本上实现了数据层和安全层的标准化,这样你就拥有了自己的数据,一切都可以通过这些开放接口来实现。”他说,“我认为这对社区、对这里的每个人来说都将是一件好事。因为我们有了更多的用例。我们将能够进行更多的创新,我们将为每个人拓展这个市场。”

Databricks的客户对此举表示赞赏,其中包括AT&T和纳斯达克。

“随着 Unity Catalog 宣布开源,我们对 Databricks 通过开放标准实现Lakehouse治理和元数据管理的举措感到鼓舞。”AT&T 数据平台副总裁 Matt Dugan 表示,“灵活利用我们的数据和人工智能资产的互操作工具,并进行一致治理,是AT&T数据平台战略的核心。”

“Databricks决定开源Unity Catalog,提供了一个有助于消除数据孤岛的解决方案,我们期待着进一步扩展我们的平台,加强我们的治理,使我们的数据应用现代化,继续为我们的客户提供服务,”纳斯达克资本访问平台副总裁Lenny Rosenfeld说。

目前还不清楚 Databricks 将为 Unity Catalog OSS 选择何种开源基础,也不清楚时间表。此前,Databricks 曾选择 Linux 基金会开源各种内部开发的产品,包括 Delta 和 MLFlow。


0
相关文章