数据库 频道

数据目录是激活元数据潜能的引擎

如果没有强大的数据目录功能来搜索数据资产和执行数据发现,那么一个好的元数据平台是不完整的。从长远来看,数据目录反映了企业 IT 环境。它是企业数据发现的主要入口点。以此为背景,让我们深入探讨数据目录如何成为激活元数据平台的催化剂。

从上下文来看,元数据管理是一个平台,而数据目录是该平台的众多功能之一。也许,这是最重要的能力。下图的主动元数据平台和突出显示的层表明了这一点。

“数据网格取得成功的最大挑战是创建一个包含数据生产者和数据消费者的内部数据市场,”纽约州罗切斯特市首任首席数据官 Sandra Cannon 说道。

“内部数据市场”的概念是一个通用平台,数据提供者可以在其中信任地共享信息,供数据消费者使用。上面的参考架构中的数据访问层对此进行了说明。目标是更深入地了解数据目录如何成为激活元数据的催化剂,并了解它如何解决成功构建内部数据市场的关键挑战并帮助成功实施数据网格。

一 数据目录及其在企业数据环境中的作用

数据目录是元数据模型的可搜索视图。元数据模型是存储元数据(有关数据的数据)的企业环境的结构化和有组织的清单。这些模型在元数据管理工具中针对特定企业域(例如软件、应用程序、平台、基础设施或数据域)进行定义。我们知道元数据模型不存储任何数据值,只存储元数据信息。这可以避免数据风险暴露,并向最终用户提供元数据的可见性。

在强大的元数据数据平台上实施数据目录搜索可确保最终用户获得数据资产的集中视图,以了解和分析来自正确且可信来源的数据。这定义并推动了重要业务决策的价值。

二 现有数据平台和数据架构的挑战

图片

尽管这是来自IDC 博客的旧数据,但这仍然是许多组织的实践场景。许多数据分析师和数据科学家将宝贵的时间花费在搜索和准备数据集上,而不是发现数据集隐藏的潜力。以下是造成此类问题的主要原因:

1.集中数据团队

  • 多年来,组织采用第一代EDW + BI架构模式构建数据平台来解决业务需求。随着时间的推移和管理大量数据的需求不断增长,更新的实施和用例(例如具有用于高级分析的架构的数据湖)变得常见。

  • 根本问题不是技术或这些架构模式,而是管理这些平台的团队单独负责管理数据的误导性方法。使用第一代模式的组织仍然面临此类挑战,这成为组织中数据成熟度的障碍。

  • 这不是一个可持续的模型,因为它将数据的所有权转移给中央团队,消除了数据利益相关者和领域专家对数据的控制。集中化团队被迫对数据做出不知情的决策。

2. 依赖 IT 进行数据发现

  • 由于集中式团队在 EDW 或数据湖中管理企业数据,因此需要依赖各个 IT 团队来了解数据资产和数据支持的功能。

  • 这种依赖性会延迟数据利益相关者的数据发现,从而无法在没有数据完全可见性和控制的情况下对数据做出有意识的决策。

  • 由于该模型还缺乏数据资产来源的可追溯性,因此有关数据资产的沿袭信息要么不可用,要么随着时间的推移而丢失。这会导致数据信任问题,从而导致数据风险。

  • 同样,源系统中存在的元数据信息和业务词汇表信息也会在 EDW 或数据湖中丢失或未更新。

三 克服这些挑战的关键考虑因素

极简方法是考虑以下必备条件,为数据目录实施奠定基础

1.领域驱动设计

2.高效搜索数据发现

在我们探讨这些要点之前,让我先介绍一些背景知识。第一代 EDW + BI 模式或数据湖和数据湖屋实施将继续存在并解决访问和管理数据的技术挑战。然而,正如所讨论的,这些架构模式并不是数据目录实现的主要障碍。数据域的所有权应该属于理解、了解并能够有效管理数据域的正确团队。在具有数据流畅性和领域专业知识的团队中推动此类职责非常重要。能够做出必要决策以在整个企业内共享数据、知识、流程和数据功能的人,以便消费者能够从中获得适当的利益。做到这一点的一个好方法是采用领域驱动设计方法。

Eric Evans 所著的《Domain Drive Design (DDD)》一书 在软件设计方法的背景下描述了这一点,重点关注根据领域专家的说法匹配领域的软件模型。然而,另一本书《The Enterprise Data Catalog By Ole Olesen-Bagneux》将域驱动设计概念与定义数据域相关联。本书详细描述了设计模式和示例的细节。

域:在传统上下文中,域链接到技术企业应用程序。然而,在这里,领域的定义是特定于定义的团队的,其结构是为了共享领域知识,理解常见的操作流程和功能,并使用相同的数据语义进行通信。简而言之,数据流畅的领域专家。有时,域和业务线 (LOB)可以互换。

领域驱动设计方法:

以下是本文上下文中 DDD 构造的要点。

  1. DDD 方法从定义企业环境中的域开始。选择用于分析和设计的领域可以是一个迭代过程。随着新领域的发现或识别,这个过程可以有机地发展。

  2. 域的定义应包含域的主入口点或根节点,例如数据目录名称。

  3. 然后识别域边界内的流程(该域做什么?)和能力(如何完成?)(相同的域知识、目标和操作)。

  4. 领域设计的分层表示可以更多地扩展到其他明确定义的相邻领域。领域设计可以更深入地了解需要考虑的其他领域知识、目标和操作的范围。

  5. 下一步是识别支持该域的数据源。包括:

  • 通用数据源——如技术组件:数据库、服务器、云数据存储、网络文件系统等。

  • 特定数据源 - 链接到通用数据源的特定实例或位置,例如数据库服务器下的数据库实例,或者云或网络存储下的对象或文件的位置。

    6.最后一步是将其链接到元数据资产。元数据资产又名数据资产是资产的定义,例如资产应用程序、软件、源系统或报告系 统的性质。此外,它还包括元数据模型(数据实体和属性)、业务术语表(特定领域术语、分类法、本体、全局搜索术语或同义词库)以及社交元数据(如标签、评级等)。

这将有助于设计领域,以确保正确的领域专家组有责任与更广泛的团队共享领域知识。它还将有助于有效协作、执行数据发现并帮助成功采用数据目录。

高效搜索数据发现

强大的领域设计带来了构建强大的数据目录所需的所有必要的部件,下一步自然是将其应用于数据发现。

  • 数据发现始于了解组织中存在的数据资产。基于域设计搜索数据资产的能力有助于从数据目录搜索 UI 中高效地查找任何数据资产。这种领域驱动的设计使搜索对于任何用户来说都是一致的并且易于采用。

  • 为了提高搜索效率,可以使用元数据模型中定义的业务术语表和资产类型来过滤数据资产。如果正确实施,数据目录搜索可以成为查找数据并推动元数据平台采用的重要功能。请注意,参考是为了查找数据资产而不是确切的数据值。然而,一旦有办法找到数据资产并更多地了解其谱系,就可以更轻松地反思它们在适当的记录系统中保存的数据值。因此,执行数据发现来识别正确的数据资产非常重要。

  • 这有利于关键利益相关者,例如数据分析师、数据科学家,可以更有效地发现数据,而不是在孤岛中使用他们熟悉的数据资产。同样,数据治理团队可以受益于将数据资产、关键数据元素和业务术语分类为敏感或机密,以便通过集中定义的正确访问规则和权限正确管理此类数据。然后,来自数据发现查询的搜索结果可以适当地隐藏或显示这些数据元素。对于负责支持和促进组织中数据目录使用的团队来说,实施由数据目录 UI 中的搜索功能支持的强大数据发现流程是一项艰巨的任务。

  • 该团队主要由数据架构师、数据工程师和数据管理员组成,负责数据目录的实施和持续价值创造,以更好地采用。另一个关键角色是数据质量工程师(在本例中为元数据质量)。

  • 核心职责还在于确保元数据质量处于定义的质量指标范围内,以实现高效的数据发现过程。数据消费的主要利益相关者是数据分析师、数据科学家和数据治理团队。

  • 为了成功采用数据目录 UI,要实现的搜索的基本功能是:

  1. 基本搜索:文本、关键字、包含、类似或同义词搜索

  2. 高级搜索:模糊搜索、使用和/或、布尔运算符的逻辑分组搜索

  3. 自动完成:根据用户类型提供实时建议

  4. 特定领域的搜索:基于业务术语表和分类法

  5. 全局搜索:基于工具的搜索能力。

  6. 基于社交元数据的搜索:例如标签、评级

基于本体的搜索:利用知识图谱,了解搜索节点和相邻较近节点的连接。

良好的数据目录实施的一个重要基础是应用领域驱动设计,这将为强大的数据发现提供高效的搜索功能。这样就可以克服现有数据平台和数据架构的挑战。

四 企业数据目录的价值主张

实施数据目录的目标是了解业务需求并使用数据来驱动价值并帮助组织实现业务成果。以下是数据目录帮助揭示的关键价值驱动因素。

数据目录是数据驱动组织中数据战略的关键驱动力

成熟的数据驱动型组织投资实施数据战略以支持目标和目标,例如:

  • 拥有完善的数据治理流程

  • 采用现代数据架构,实现数据工程、数据目录、数据质量、数据管理和数据共享等核心功能

  • 具有自助服务功能的高级数据分析

  • 持续创新、创造价值

  • 通过拥有合适数据利益相关者的数据团队推动采用

  • 数据目录等功能有助于成功实施数据策略。

数据目录就像数据网格架构的催化剂

  • 集中责任模型,其中数据的所有权被推送给将数据集中管理到数据仓库和数据湖的团队。事实证明,此类模型通常无法扩展来满足业务需求。

  • 通过去中心化和分布式架构,职责和角色被明确定义和隔离。数据提供者管理信息源,并提供所需的沿袭、元数据和业务术语表,供数据消费者使用。

  • 打破数据的集中管理和治理以及将所有权下放到数据团队的理念对于数据网格架构的成功实施至关重要。

  • 精心设计和全面采用的企业数据目录有助于打破集中责任模型造成的孤岛。它还将数据资产的元数据收集从企业环境提升到一个中心位置,最终可以成为一个内部数据市场。

外部数据市场的构建模块

  • 外部数据市场是一个数据货币化平台,它将数据提供者和感兴趣的数据消费者连接起来,以在公开可用的数据产品上进行交易。

  • 随着越来越多的组织能够发现其数据资产的隐藏潜力,他们愿意在数据市场上出售或共享相关数据资产,即数据产品。

  • 只有当组织信任其数据资产时,这才有可能实现。他们可以自信地在市场上推广他们的数据产品,以便买家在他们的生态系统中安全地购买和增强这些数据产品,以推动他们的业务成果。

  • 对于数据货币化需求,了解组织中存在哪些数据资产、其数据处理和治理流程的基本能力必须在需要时建立、监控和报告。

  • 基于数据目录构建的数据发现流程应该具有自助服务功能。最终用户、数据治理和数据分析团队可以使用它来实现数据流畅性,并在需要时发现、分析、协作和构建新的数据资产。

  • 凭借数据平台的坚实基础,组织可以构建更好的数据产品,并通过数据市场中的活动推出这些产品。

五 数据目录的优点

数据目录在企业环境中的优势是巨大的。以下是数据目录可以释放的功能的最终列表。

数据发现:数据目录为企业中存在的所有数据资产提供透明度和可见性。它还提供数据发现和搜索企业环境中存在的数据资产的能力。这对于成功采用元数据平台并通过强大的数据发现激活元数据使用非常关键。带有映射和文档的陈旧元数据的价值正在减弱。因此,需要具有允许智能搜索和交互式数据发现的功能的主动元数据。

消除数据孤岛:它通过了解整个企业的数据所有权和数据资产的使用情况来消除数据孤岛。数据目录有助于数据科学家和数据分析师有效地搜索数据资产及其沿袭。这消除了在孤岛中的已知数据资产内工作的限制。当团队在没有边界或隔离的情况下全面了解企业数据资产的情况下进行协作时,数据孤岛就会被消除。

数据治理:尽管数据值未在元数据模型中公开,但关键数据资产和这些资产中的元素是敏感且机密的。通过正确的规则、访问权限和视角,数据目录可以在有意义的上下文中提供给数据管理员、数据分析师、数据管理员和数据工程师等关键数据利益相关者。

可视化数据沿袭:数据目录遵循领域驱动的设计。因此,可以更轻松地可视化与其他数据域的关系并了解有关域的详细信息。数据资产可以与垂直结构或水平结构相关联。

垂直沿袭:通常称为分层形式的域和子域之间的关联,提供对组织、团队、组或数据域的洞察。传统上称为业务线 (LOB) 视图。

水平沿袭:也称为数据沿袭,显示数据如何在企业环境中从源移动到目标。

使用业务术语表进行搜索:对于每个元数据表或属性,域用户可以定义其他元数据来扩展数据资产的知识和文档。这些信息可以与其他领域和最终用户协作,以进一步实现社交方面的功能,例如对数据资产进行评级、标记或评论。

六 小结

总而言之,数据目录是一个很有效的协作工具。实现良好管理的治理固然很好,但能够良好地协作也是必不可少。推动企业环境中元数据的采用至关重要,这取决于最终用户和数据利益相关者。然而,数据目录的启用是领域专家和数据团队的责任,以在企业中传播其领域的数据流畅性。

这些领域专家必须将他们的领域视为“数据产品”,以便通过传播其领域的数据流畅性来在企业内推广它们,以实现更快的分析和操作用例。

联合治理方法帮助每个业务部门分担存储、处理和共享其元数据的责任。这种协作可以实现“数据网格”等高级数据架构和“DataOps”等高级实践。这将促成企业数据用户(治理、分析和最终用户)花费最多时间来发现企业数据的潜力。

它还消除了不必担心使用哪些数据资产进行分析以及这些数据资产的质量的痛苦。这可能会解决组织的问题,因为组织的团队花费 80% 的时间来确定要使用哪些数据资产,而不是进行有意义的分析。

0
相关文章