数据库 频道

数据目录与元数据目录有什么区别?

  数据目录和元数据目录有一些相似之处,尤其是它们几乎相同的名称。虽然它们有一些共同的功能,但这两个实体之间也有重要的区别,大数据从业者应该了解这些区别。

  元数据目录,有时也称为元数据库或技术数据目录,最近一直是新闻焦点。如果您是 Datanami 的常客,您就会在上个月的 Snowflake 和 Databricks 会议上读到很多元数据目录的内容,当时这两个竞争对手承诺开源各自的元数据目录 Polaris 和 Unity Catalog。

  那么什么是元数据目录?它们为什么重要?

  元数据目录

  元数据目录被定义为存储描述数据的技术元数据的地方,这些数据以表格结构存储在数据湖或Lakehouse中。

  最常用的元数据目录是 Hive Metastore,它是描述 Apache Hive 表内容的元数据的中心存储库。当然,Hive 是一个关系框架,它允许 Hadoop 用户使用传统的 SQL(而不是 MapReduce)来查询基于 HDFS 的数据。

  Hive 和 Hive Metastore 现在仍然存在,但它们正在被新一代技术所取代。Apache Iceberg、Apache Hudi 和 Databricks Delta Table 等表格式与 Hive 表相比有很多优势,包括支持事务,从而提高了数据的准确性。

  这些表格式还需要一个技术层——元数据目录来帮助用户了解表中存在哪些数据,并允许或拒绝访问这些数据。Databricks 在其 Unity 目录中支持这一功能。对于 Iceberg 而言,由 Dremio 工程师开发的 Project Nessie 等产品力图成为 “事务目录”,为各种开放和商业数据引擎(包括 Hive、Dremio、Spark 和 AWS Athena(基于 Presto)等)的数据访问提供中介服务。

  Snowflake 开发并发布(或承诺发布)了 Polaris,作为 Apache Iceberg 生态系统的标准元数据目录。与 Nessie 一样,Polaris 使用 Iceberg 基于 REST 的开放式 API 来访问 Iceberg 存储的 Parquet 数据的描述性元数据。然后,REST API 将作为 Iceberg 表中存储的数据与数据处理引擎(如 Snowflake 的本地 SQL 引擎以及各种开源引擎)之间的接口。

  数据目录

  数据目录通常是第三方工具,公司用它来组织整个组织中存储的所有数据。它们通常包括一些允许用户搜索其组织可能拥有的数据的设施,这意味着数据目录通常具有一些数据发现组件。

  许多数据目录(如 Alation 的目录)还包括访问控制功能以及数据脉络跟踪和治理功能。在某些情况下,一开始提供数据治理和访问控制的数据管理工具供应商(如 Collibra)也反其道而行之,也加入了数据目录和数据发现功能。

  与元数据目录一样,常规数据目录,也就是某些业内人士所说的 “企业 ”数据目录,也在全力吞噬元数据,以帮助他们跟踪各种数据资产。企业数据目录供应商 Atlan 的工作重点是统一不同数据集生成的元数据,并通过元数据 “控制平面 ”实现同步,从而确保业务指标不会过于失调。

  现在,你可能想知道它们到底有什么区别?它们都跟踪元数据,名字中都有 “数据目录”。那么元数据目录和数据目录有什么区别呢?

  到底有什么区别?

  为了帮助我们解读这两种目录类型之间的区别,Datanami 最近采访了大数据领域领先的数据目录供应商之一 Collibra 的首席执行官兼联合创始人 Felix Van de Maele。

  “它们是完全不同的东西。”Van de Maele 说,“如果你考虑一下 Databricks 的 Polaris 目录和 Unity 目录,AWS、谷歌和微软都有自己的目录,这确实是一种理念,即你可以在任何地方、任何云上存储数据......我可以使用任何一种数据引擎,如 Databricks、Snowflake、谷歌、AWS 等,来消费这些数据。”

  但 Collibra 和其他企业数据目录所做的事情截然不同,Van de Maele 说。

  “我们所做的是提供更多的业务背景。”他说,“我们提供的是所谓的知识图谱,也就是你实际定义和管理政策的业务背景。比如我的数据质量如何?我的数据需要遵守哪些业务规则?我的数据需要遵守哪些隐私政策?谁需要批准数据?我们如何获取证明?如何进行认证?如何建立一个包含业务术语和明确定义的业务词汇表?”

  “这与 Iceberg的Polaris目录(物理元数据)截然不同。这是一个真正的区别。”他说。

  Van de Maele 的产品支持新出现的开放Lakehouse架构,这种架构让客户可以自由地将数据存储在开放的表格格式中,如 Iceberg、Delta 和 Hudi,并使用任何引擎进行查询。他的客户(其中许多是财富 500 强企业)在许多数据平台上存储数据,并使用 Collibra 数据智能平台帮助控制和管理对这些数据的访问。

  不同的角色

  客户应该明白,元数据目录和数据目录虽然名称相似,但作用却截然不同。

  “我区分两者的方法是,我们负责策略定义和管理,他们负责策略执行。”Van de Maele 说,“实际上,我认为这是正确的架构。”

  元数据目录通常不具备允许用户围绕数据访问设置业务策略的功能。Van de Maele 说,例如,它们不会让你设置访问控制,使营销团队能够访问所有客户数据,除了那些被标记为 “机密 ”的数据,在这种情况下,这些数据必须被屏蔽。

  “我们可以在 Databricks 中拥有营销数据,在 Salesforce 中拥有营销数据,在 Google 中拥有营销数据,在人们使用营销数据的任何地方,我都需要确保正确的数据被分类和屏蔽。”他说,“因此,我们在 Databricks、Snowflake、Google、亚马逊和微软中进行推送。”

  Van de Maele 说,客户可以定义自己的数据访问策略,而不需要 Collibra 这样的工具。毕竟,它最终只是 SQL。但这样一来,他们就需要其他方法来跟踪分布在不同数据平台上的数百万列。Collibra的作用是洞察数据的存在和位置,然后确保客户按照公司的管理规则访问数据。

  同时,Collibra 的执行机制依赖于元数据目录。Van de Maele 说,其他执行机制也曾尝试过,如代理和驱动程序,但都不奏效。

  “我们认为,采用开放表格式的元数据目录方法实际上是一种正确的方法。”他说,“我们希望这些数据平台能够原生地做到这一点,否则可扩展性和性能总是会成为问题。”

  Databricks Unity Catalog 似乎是个例外。Databricks 上个月刚刚开源的 Unity Catalog 提供了对技术元数据的底层控制以及更高层次的功能,如数据治理、访问控制、审计和脉络。在这方面,Unity Catalog 似乎可以与企业数据目录供应商一较高下。

0
相关文章