数据库 频道

晓谈数据工程3-数据质量和治理

  这是数据工程概念系列的 10 部分中的第 3 部分。在这一部分中,我们将讨论数据质量和治理。

  内容:

       1. 数据质量

       2. 如何实施数据质量

       3. 数据治理

       4. 如何实施数据治理

  什么是数据质量

  数据质量是保证数据准确、完整、新鲜、可靠并适用于组织需要处理的业务需求。投资于数据质量将节省大量时间和精力,并防止出现任何错误情况。

  不同类型的数据质量检查可以是a.空值检查(例如,如果发现某个可选项目为空并且需要它进行分析)b.数量检查(例如,如果发现行数远高于预期)c.数据类型检查(例如,文件可能没有期望的正确列顺序)d.范围检查(例如,交易价值超出预期)

  e.类别检查(例如,可能有一个不存在的州缩写)

  f.新鲜度检查(例如,几分钟前发生的交易未注册)

  g.唯一性检查(例如,确保没有重复的行)

  h.引用完整性检查(例如,确保外键与其他表中的主键匹配)

  如何实现数据质量

  1. 通知系统

      需要有一个设计为在违反任何数据质量检查时发送通知的系统,例如 Slack 通知。

  2. 数据质量仪表板

      构建仪表板来显示数据质量检查结果,例如容量测试和范围检查。

  3. 数据质量运算符

      预构建的运算符自动隐含到数据处理管道中,以确保一切就位。

  什么是数据治理

  数据治理是指定义数据控制、访问和标准化策略的过程,以随着时间的推移提供安全性和有效性。指定数据管理员负责数据质量和这些策略的执行,并且数据沿袭用于在整个数据生命周期中跟踪源到目的地。

  数据治理框架有 3 个主要组成部分:

      1.政策

      需要实施某些政策(例如数据安全法)以确保制定的规则,或者也可以制定组织级别的政策来实现一般合规性。

  2.规则

      数据保护 -敏感数据必须像 SSN 一样受到保护

      治理 -应根据时间和内容授权访问

  3.分类

      业务类别——例如:不同业务领域的利用率衡量方式不同

      数据类别 —例如:元数据、主数据、分析数据、业务数据、参考数据

  如何实施数据治理

  为了实施数据治理框架,需要构建以人为中心的方法,因为人们应该能够对他们管理的数据负责。治理框架应根据应用策略的进展进行迭代细化。

  数据治理可以通过 3 种不同的模式来实现:集中式、分散式、混合式

  为了实施数据治理策略,需要采取几个步骤:

      1. 识别现有数据并确定优先级:

      对数据进行分类并为现有数据创建元数据和数据目录

  2. 准备和转换元数据

      创建数据字典模板,并清理和转换组织各部门的数据形式。

  3. 选择并构建治理模式

      选择上述任何合适的模型,并开始实施数据的存储、维护和处置方式。

  4. 建立政策分发流程

      提供适当的培训,并让所有团队在制度、流程以及使用指南和限制方面达成共识。

  5. 识别潜在风险

      根据即将推出的安全策略保持数据最新,以安全地存储数据并限制对数据的访问。

0
相关文章