如果你是开放数据的支持者,那么上周有关 Apache Iceberg 的新闻定会让你感到高兴。客户需要一种开放的存储格式,而 Snowflake 和 Databricks 正在大力提供这种格式。
回顾一下: Databricks 在6月4日宣布有意收购由创建 Iceberg 的前 Netflix 工程师创建的 Tabular 公司,为 Apache Iceberg 提供了强大的支持,令大数据社区大吃一惊。
在Databricks宣布收购消息的前一天,Snowflake 发布新元数据目录 Polaris ,使客户能够在其数据中使用开放式查询引擎,此举进一步推动了Snowflake公司从一个专有云数据仓库转型为一个用于分析和人工智能的开放数据平台。
开放数据生态系统的成员对此报以热烈掌声。其中最大的支持者是 Dremio,该公司开发了同名的开源查询引擎,是开放元数据目录 Project Nessie 的主要支持者,还为客户管理着一个基于Iceberg的Lakehouse。
“我认为,在表格格式上,Iceberg赢了。”Dremio 产品管理副总裁James Rowland-Jones说,“我们也认识到,当你没有获胜时,表格格式的分叉对你的业务没有帮助。”
Databricks的表格格式被称为Delta,是Dremio在2023年底对客户进行Lakehouse技术调查时使用最多的表格格式。Dremio 首席营销官Read Maloney表示,Delta 在总部署量方面排 名第一,而 Iceberg 则在未来三年的计划部署量方面遥遥领先。
“谁在推动这些变化?是客户。客户已经厌倦了被锁定,唯一的办法就是确保你不仅采用开放的表格格式,而且还拥有开放的目录,”Maloney在上周于旧金山举行的Snowflake数据云峰会上接受Datanami采访时说。
“因此,现在客户拥有自己的存储,拥有自己的数据,拥有自己的元数据,然后生态系统中的所有供应商都围绕这一点进行构建。客户现在可以说'我想让那个供应商做这个,我想让那个供应商做这个',他们都在共同的生态系统中工作,”他说。“目录规范的通用性越强,每个人参与生态系统就越容易。”
“我们在倾听客户的声音。”Snowflake公司数据湖和冰山负责人Ron Ortluff上周在接受Datanami采访时说,“这就是我们的指导原则。”
Polaris即将推出,Snowflake计划在90天内将其捐赠给开源社区,这意味着Snowflake的客户很快就可以使用任何支持Iceberg基于REST API的查询引擎来查询他们的Iceberg数据。这些引擎包括 Apache Spark、Apache Flink、Presto、Trino 和(即将推出的)Dremio。当然,他们也可以使用 Snowflake 快速的专有 SQL 引擎查询Iceberg数据。
来源:Snowflake
开发可观察性平台的 New Relic 公司首席技术官 Siva Padisetty 说,开放数据的发展是计算堆栈持续解耦的标志。
“在存储和计算解耦之后,从存储到分析的所有层都开始类似地解耦,目前表格也正在经历这一过程。”Padisetty 通过电子邮件说,“总而言之,其重点仍然是数据堆栈优化,以及企业如何组合适当的存储、表格式和计算引擎,以最快的方式处理数据。”
Padisetty 说:“关键是在计算和存储方面保持供应商的不锁定、速度和灵活性,同时以最具成本效益的方式解决业务用例中的数据引力问题,而不需要多个副本”。
他说,拥有一个能够处理海量数据并为多种用例(如 IT 遥测、数据湖和 SQL 分析)保持性能和安全性的集中式数据平台的价值至关重要。
“企业可以获得开源技术的附加值,同时保持数据的集中性。”Padisetty 继续说,用例的集中化将是一种趋势,企业应该为此做好准备。
开源 Trino 背后的商业机构 Starburst 也在密切关注 Iceberg 的发展。开发 Iceberg 的部分初衷是为了让 Netflix 能够使用 Presto,而 Trino 正是源于 Presto,因此 Iceberg 的发展无疑是积极的。
Starburst 公司首席执行官兼董事长Justin Borgman说:“对市场和客户来说,这种竞争实际上创造了开放性。”Starburst 公司也提供基于Iceberg的Lakehouse服务。“Starburst就是这样一个受益者,现在可以说是Databricks与Snowflake之争中强有力的第三种选择。”
Borgman 密切关注着接下来的发展,尤其是围绕元数据目录的发展。正如开放表格式之争最终成为数据孤岛化的新根源一样(这具有讽刺意味,因为创建这些格式是为了促进数据开放),元数据目录也是锁定的潜在根源,因为它们是处理引擎和数据之间连接的中介。
“有了Tabular,Databricks的Unity目录就有可能占领更多的市场份额,包括使用Delta Lake或Iceberg的企业。”Borgman通过电子邮件告诉Datanami,“Snowflake对Polaris的开源是与Databricks竞争的一种方式,它强调虽然市场正在迅速转向像Iceberg这样的开放存储格式,但像Unity这样的目录是锁定的新来源。我们可以推测,这将迫使 Databricks 最终开放 Unity 的源代码,但现在确定还为时过早。”
不过,从整体上看,过去一周的新闻对开放数据的客户和支持者来说是非常有利的。开放数据平台的势头正在形成,而且来得正是时候。
“Iceberg生态系统发展迅速。我认为,在(Snowflake和Databricks)这两项声明的支持下,它将发展得更快,”Maloney说。“如果你是Iceberg社区的一员,现在正是进入下一个时代的好时机。”