数据是 2024 年组织中最有价值的资产,释放其价值的神奇钥匙是什么?这里有一个提示:目前它的使用方式有限,即大多数公司的发现和治理。新出现的用例包括数据质量、可观察性和增强协作能力。好吧,如果您还没有猜到的话,答案就是元数据!随着数据存储和处理平台的成熟,元数据技术创新的时机已经成熟,以永远改变数据技术堆栈。
一 元数据的现状
组织不良的元数据正在阻碍组织充分发挥数据的潜力。元数据不正确、不一致、陈旧、丢失,并且分散在各种互不相关的工具中,从而模糊了数据的整体情况。我们称之为“破碎数据”。
让我们看看具有典型数据堆栈的组织中使用数据的用户。开发人员构建将数据存储在在线事务数据库中并生成事件的应用程序。这些作为原始数据被摄取到数据湖中。数据工程师使用 ETL/ELT 转换原始数据,在数据仓库中创建建模数据集以进行离线分析。数据分析师、数据科学家、工程师和其他数据消费者使用它们来创建报告、仪表板、指标和机器学习模型,以支持数据驱动的决策。
随着大量数据的产生,很难发现组织中已经存在的数据,从而导致数据未被使用。数据目录的出现就是为了解决这一数据发现挑战。它与各种系统集成——事务数据库、数据湖、数据仓库等。它对这些系统进行爬行,收集数据库、模式和表的清单,并对它们建立索引以便于发现。用户进一步将描述、标签、所有权和其他文档添加到目录中,以使数据易于理解和使用。
随着组织越来越依赖数据,数据质量和可靠性问题变得越来越严重。通常,组织会在几天或几个月后意识到数据有问题,并且修复它为时已晚,或者损失已经造成。数据质量是一个新兴领域;它将在让数据为公司服务方面发挥关键作用。然而,此类工具在启动之前再次需要重新发现并创建自己的元数据的另一个副本。该工具进一步添加了其独特的元数据,例如测试、测试结果和质量指标。为了发现和理解数据,现在用户从目录开始。但要了解质量方面,用户必须切换到质量工具。根据用户正在寻找的数据上下文,他们必须在工具之间来回跳转。
数据堆栈中的工具数量呈爆炸式增长。有用于数据可观察性、成本管理、合规性、数据生命周期、数据分类的工具,这样的例子不胜枚举。每次将新工具添加到数据堆栈时,问题就会变得更加复杂。每个工具都需要与数据堆栈集成,并且它们必须重新发现并创建元数据的另一个副本。该组织现在拥有分散在不同系统中并以专有格式存储的不一致、分散和孤立的元数据。团队努力保持元数据在不同工具中的正确、完整和一致,并退回到容易出错的“部落知识”数据方法。在工具之间跳转的脱节用户体验恶化,用户的挫败感增加,影响团队生产力。这也给运营数据堆栈的团队带来了过度的负担,因为他们需要设置、配置和管理多个系统。
数据生态系统中的工具开发人员面临着另一个挑战……让我们以数据质量工具的开发人员必须经历的为例。如果可以重用现有的元数据,那么构建该工具就会简单得多。它可以利用现有的元数据,例如数据源、数据资产、模式和数据约束以及与数据关联的统计信息来生成测试。它可以将其生成的元数据(例如测试结果和质量指标)存储在现有的元数据系统中。相反,目前工具必须自行生成所需的所有元数据。在数据堆栈中构建与来自不同供应商的各种系统的大量集成,对这些系统进行爬行,收集和索引元数据,以及存储和提供元数据。不成比例的时间花费在开发冗余元数据系统上,而不是专注于该工具擅长的特定功能。这增加了工具开发的成本和复杂性,并减慢了创新速度。相反,这些工具最终成为成熟的独立系统,增加了数据堆栈的成本和复杂性。
事实上,根据我们的经验,如果元数据可以轻松共享,那么许多功能狭窄的工具可能只是数据堆栈中的工作流程。
二 重构元数据
根据经验,统一的元数据系统可以改变组织使用数据的方式。以下是我们重构建此类系统的第一次迭代中获得的主要经验:
1.单一事实来源
随着时间的推移,许多系统中的重复元数据会变得不一致。这会导致误解,导致数据使用方式出现错误。元数据的单一事实来源 (SoT) 是在整个组织内建立对数据的一致理解的关键。任何两个系统都必须存储相同的元数据,并且当数据质量等工具需要某些信息时,它必须使用来自另一个存储 SoT 的系统的元数据。保持单一来源的正确性、一致性和高质量比维护分布在各个系统中的多个元数据副本要容易得多。
2.集中元数据
将组织中的所有元数据集中在一个地方具有巨大的好处。通常,术语元数据湖用于描述元数据集中的此类系统。我们需要向元数据图迈进一步,其中元数据不仅是集中式、被动地存储,而且是主动组织为一个图,将数据与服务、工具、数据源、用户、团队、用户活动、数据处理工作流程、沿袭、质量连接起来、可观察性和许多其他数据上下文。具有端到端数据上下文的组织中的这种统一的数据视图使得对数据的强大洞察成为可能。元数据图超越了当前的目录,并提供了几个好处:
连接的用户体验——不同用户针对不同用例所需的所有数据上下文都可以在一个地方获得,以减少上下文切换并提高用户工作效率。端到端上下文简化了数据问题的识别、调试和解决,从而提高了数据的质量和可靠性。
更好的工具——工具可以从中央存储中使用它们所需的元数据,而不是构建重复的副本。工具可以将其元数据直接发布到中央存储,而不是构建单独的存储。这大大简化了工具开发。
创新——围绕中央元数据存储,许多新的自动化成为可能,将用户从平凡的工作中解放出来。集中式元数据还使现有工具能够使用丰富的上下文来提供更高级的功能。例如,查询工具可以利用质量工具生成的质量信号,甚至在生成报告之前就数据问题向用户发出警报,而不是在共享报告并手动标记问题之后进行调试。
为了实现这一愿景,有几件事是必要的:
(1)元数据标准
以专有格式困在专有系统中的元数据会显着降低数据的价值。对于大量共享元数据的工具来说,一个精心设计和商定的元数据规范是必要的。这需要采用模式优先的方法,而不是事后才考虑模式。构建中央存储必须从识别实体、类型和实体之间的关系开始,并仔细地将它们建模为具有一致词汇的模式。这种元数据语言是元数据存储和 API 的基础。
(2)元数据可扩展性
元数据模式需要丰富的词汇来描述现有用例和未来将出现的新用例的各种元数据。需要通过采用模式演变和可扩展性的最 佳实践来将可扩展性设计到元数据模型中,以装载更新的元数据。
(3)元数据 API
为了最大限度地发挥元数据的优势,必须构建一个用于集成的中央存储库。这需要一种以 API 为中心的方法,具有设计良好、易于使用且可重用的 API,除了 UI 和治理用例之外,还要考虑跨工具的各种用例。
3.元数据应该是供应商中立的
集中式元数据系统促进各种工具、服务和系统之间的互操作性,包括由竞争供应商构建的工具、服务和系统。它必须由多元化的社区构建为开放标准,代表用户和服务的不同需求,作为供应商中立的解决方案,而无需担心锁定。优先级必须根据整个社区的需求而不是供应商的需求和时间表来确定。这种开放的元数据系统为快速创新创造了一个公平的竞争环境,最好的工具会获胜。
4.开源
构建供应商中立系统的最 佳方法是将其构建为开源计划。一个健康的开源项目和一个蓬勃发展的社区构建元数据的开放标准可以突飞猛进地推动数据生态系统。
现在有一些很好的开源选项,它们是由大公司开发的,后来又开源了。虽然开源它们当然是一种选择,但我们认为利用这些项目的经验从头开始构建一个系统会更好。