数据库 频道

对现代数据质量的重新思考

人工智能和机器学习用例对准确数据的巨大需求推动数据质量领域正在经历重新思考怎么办?毕竟,如果像 ChatGPT 这样的复杂模型是用错误数据进行训练的,那么它们有什么用处呢?这些错误的数据甚至可能肉眼都看不出来。数据本身可能是正确的,但到达系统的时间有点晚或者有偏差。

如果我们错误地处理了数据质量问题,从而无法克服数据质量差的问题怎么办?将数据质量视为技术问题而不是业务问题可能是取得进展的最大限制因素。查找技术缺陷,例如重复数据、缺失值、无序序列以及与历史数据预期模式的偏差无疑至关重要,但这只是第一步。要求更高、更关键的一步是衡量业务质量,检查数据是否在上下文中正确。

现代数据质量是由业务 KPI 和战略要求驱动的自上而下的工作。

随着业务团队扩大数据在新用例中的使用,当数据质量落后时,风险就会更高。企业正在竞相更快地利用数据资产,并且不希望因数据质量障碍而放慢速度。

商业质量不是可有可无的。开始数字化转型的组织需要重新调整数据质量的方式,以便变得更加数据驱动,并将数据用作竞争优势。

这项研究探讨了数据质量空间的现代化。

新规则手册

到 2022 年,拥有 1000 名员工的组织将拥有超过 150 个 SaaS 应用程序。这些应用程序大多数都存储与其需求相关的数据,但是,为了执行跨组织分析,需要聚合、丰富和集成这些数据。与过去相比,这个过程极大地扩大了数据质量计划的范围,当时所有数据都来自少数以结构化方式存储数据的内部 ERP 或 CRM 应用程序。新的人工智能和机器学习用例通常使用依赖于高质量现实数据的合成数据。

如果说过去十年我们积累了更多数据,那么当前十年我们更关心确保我们拥有正确的数据。Gartner 估计,每个组织因数据质量差而造成的成本平均为 1500 万美元。在这十年中,数据网格、数据产品、数据共享和市场等新的数据交付方式开始成为主流。

以零售应用程序中的订单表为例。各省、市、县的销售税差别很大,而且经常变化。您的数据质量子系统应该检测是否推断出某个订单可能应用了不正确的税款。组织越早发现并纠正问题,成本就越低。

本节的标题很讽刺,因为很多传统数据质量都是基于规则的。是的,重新思考要求我们从静态的、预定义的规则转向发现隐藏在数据内部的规则。这些规则是根据数据中存在的模式推断出来的,并且使用机器学习算法可以预测新传入数据的可靠性。当推断的规则与现有规则相结合时,就会出现更丰富的数据质量系统。

我们已经意识到在动态和快速变化的数据世界中创建规则和政策的局限性。新的前沿是使用复杂的机器学习模型来理解数据的“行为”,并动态检测异常并推荐修复步骤。发现规则的一个例子是基于通常进入系统的数据量。随着业务的增长,数据量会以稳定的速度增长,可以使用机器学习技术来预测。如果突然出现无法解释的偏离预期范围的情况,那么数据质量产品应该向利益相关者发出警报。完成得越快,破坏性就可以得到有效控制。

下图显示了处理数据质量的新方法。

现代数据质量方法是基于上下文的,旨在更快地交付数据结果,并具有更高的可靠性和信任度。

现代数据质量的四大支柱是:

自上而下的业务 KPI

如果数据质量这个术语从未被创造出来,而目标是“业务质量”,那么 IT 团队也许会受益。在这种情况下,确保数据正确的存在理由是确保实现业务成果。在这种情况下,焦点从数据基础设施转移到其上下文。

但是,“上下文”到底是什么?

它是业务用途对数据的应用。例如,“客户”的定义在不同的业务部门之间可能有所不同。对于销售来说,它是买家;对于营销来说,它是影响者;对于财务来说,它是支付账单的人。因此,上下文的变化取决于谁在处理数据。数据质量需要与上下文保持同步。在另一个示例中,国家/地区代码 1 以及美国和加拿大地区可能看起来相似,但实际上并非如此。

不同的团队可以出于截然不同的目的使用表中的相同列。因此,数据质量的定义各不相同。因此,数据质量需要应用于业务上下文级别。

产品思维

数据网格原理所引发的概念非常引人注目。它们发展了我们的思维,因此在实践中可能行不通的旧方法实际上可以在今天发挥作用。最大的变化是我们如何看待数据:作为一种产品,必须在管理时考虑到用户及其期望的结果。

组织正在应用产品管理实践来使其数据资产变得可消费。“数据产品”的目标是通过让不同的消费者更容易地消费和分析“可信数据”来鼓励更高的利用率。这反过来又提高了组织以低摩擦方式从数据资产中快速提取情报和见解的能力。

同样,数据质量也应该采用相同的产品管理原则。数据生产者应发布“数据合同”,列出向消费者承诺的数据质量水平。通过将数据质量视为最重要的要素,生产者应该了解数据的使用方式及其质量的影响。

数据产品的数据质量SLA旨在确保消费者了解数据新鲜度等参数。

数据可观察性

通常,数据消费者是第一个检测到异常的人,例如 CFO 发现仪表板上的错误。此时,一切都乱了套,IT 团队进入被动救火模式,试图检测复杂架构中错误出现的位置。

数据可观测性通过持续监控数据管道并使用先进的机器学习技术来快速识别异常,甚至主动预测异常,以便在问题到达下游系统之前进行修复,从而填补了这一空白。

数据质量问题可能发生在管道中的任何地方。然而,如果问题被发现得越早,修复的成本就越低。因此,采用“左移”的理念。数据可观测性产品通过以下方式增强数据质量:

  • 数据发现从数据源和数据管道的所有组件(例如转换引擎和报告或仪表板)中提取元数据。

  • 监控和分析——动态和静态数据。正在使用的数据怎么样?

  • 预测性异常检测——使用内置

  • 警报和通知

数据质量是数据可观测性的基础部分。下图展示了数据可观测性的整体范围。

数据可观测性是一个多维概念,涉及三个领域:数据质量、管道或基础设施以及包括成本指标在内的业务运营。这三个领域分别提供信任、可靠性和价值。

整体数据治理

数据质量子系统与整体元数据管理密不可分。

一方面,数据目录存储定义或推断的规则,另一方面,DataOps 实践生成进一步细化数据质量规则的元数据。数据质量和 DataOps 确保以正确的规则和上下文以自动方式持续测试数据管道,并在推断异常时发出警报。

事实上,数据质量和 DataOps 只是元数据众多用例中的两个。现代数据质量与这些其他用例集成在一起,如下图所示。

长期以来,元数据管理一直受到困扰,因为这些用例一直处于孤立状态。现代数据质量是全面、统一的元数据管理平台的一部分。

将数据质量与数据治理其他方面结合起来的综合元数据平台可以改善业务用户(例如数据消费者以及数据产品的生产者和维护者)之间的协作。它们共享相同的背景和指标。

这种紧密的集成有助于采用左移方法来提高数据质量。持续测试、编排和自动化有助于降低错误率并加快数据产品的交付。需要这种方法来提高对数据团队的信任和信心。

这种集成是企业采用数据产品、数据网格和数据共享选项(如交易所和市场)的现代数据交付方法的基石。

现代数据质量的好处

数据质量计划的目标是建立对数据的信任。然而,信任是一个广泛且通常定义不明确的术语,可能包括许多控制和管理数据的主题。当元数据管理平台的所有组件作为一个单元工作时,可信数据就成为可能。例如,如果没有准确的数据,就很难确保所有数据安全和隐私计划都能按设想发挥作用。

这应该是首席数据官 (CDO) 的首要目标。

但许多组织未能实现多次数据治理尝试。然而,现实情况是,无论我们所谓的数据治理计划如何,全球合规性只会不断增加;必须解决业务质量问题。

现代数据质量方法的好处是:

  • 问责制

在数据网格和数据产品的去中心化数据交付世界中,现代方法要求业务团队负责数据质量。毕竟,域所有者是主题专家,最了解他们的数据。

业务用户通过处理上下文以满足关键 KPI 来增强数据质量的技术方面。然后,数据质量就成为打包数据产品中承诺的 SLA。并且它随着数据的变化而不断发展。因此,数据产品有了新的版本。数据消费者不再需要事后猜测是否信任数据。

  • 交货速度

“数据质量延迟”是指新数据到达和对其执行数据质量检查和修复之间的时间。现代工具应该能够

现在,更多的数据是通过多个外部数据源(例如多种格式的 SaaS 产品)生成的,并且通常以实时流的形式到达,而不是内部系统中。过去将数据放置在单个目标位置并以批处理操作执行数据质量的技术已不再足够。旧的静态方法将数据质量视为对仅以固定时间间隔运行的静态数据的独立工作。

现代“持续质量”方法是积极主动且动态的。它与包括编排、自动化和 CI/CD 在内的 DataOps 原则同步。这种方法使数据团队能够更快地交付数据产品。它允许习惯于每季度发布一次的组织加速并每周交付多个版本。

  • 更高的生产力

传统的数据质量方法不成功的原因之一是实现最终目标需要大量的精力和时间。宝贵的员工陷入手动修复下游系统中的数据质量问题的困境。通常,耗时的核对是在 Microsoft Excel 电子表格中进行的。这是治疗症状而不是问题。

识别和修复接近问题根源的现代方法可以节省时间和成本。通过 DataOps 提供的各种自动化功能以及与数据治理其他方面的集成,这种方法可以提高数据团队的生产力。

一旦数据质量问题得到解决,数据团队

  • 成本

随着数据量不断增加,为了保证持续的质量,系统需要自动扩展。这通常是基于云的解决方案提供帮助的地方。然而,即使在云中,也有两种方法来运行数据质量检查——一种是通过持续监控动态数据的代理,另一种选择是将静态数据下推到云数据仓库中并使用下推功能。每个选项都服务于独特的用例,并提供架构和成本权衡。

在前一种方法中,在数据进入目标分析系统之前检测数据质量问题。这对于流数据情况下的异常检测非常有用。但是,它需要一个处理引擎,例如 Apache Spark 集群。

在后一种情况下,数据首先进入分析系统,例如 Snowflake,然后数据质量产品生成 SQL 查询并在存储引擎内执行。此选项最大限度地减少数据移动,因此可能更安全。此外,它还可以利用分析系统的自动缩放功能。

架构师应分析每个选项的总成本,以评估合适的架构。

小结

在一个如此强调分析速度和敏捷性的世界中,数据质量受到了影响。然而,现代数据质量方法再次使其成为一阶问题,没有它,现代分析就会变得不完整。重点正在从仅检查完整性、唯一性和完整性等技术维度转向可靠性、信任和上下文准确性。

0
相关文章