我们为什么还在谈论数据质量?似曾相识?每个供应商都承诺采用一种新奇的方法,声称这种方法更好,可以解决过去的所有弊病。但是,我们更了解情况。
如果人工智能和机器学习用例对精确数据的巨大需求推动了数据质量领域的重新思考,情况会怎样?毕竟,如果像 ChatGPT 这样的复杂模型是在错误数据上训练的,那它们有什么用呢?这些错误数据甚至可能肉眼都看不到。数据本身可能是正确的,但到达系统的时间有点太晚或有偏差。
如果我们错误地处理了数据质量问题,从而无法克服数据质量差的问题,该怎么办?将数据质量视为技术问题而不是业务问题可能是取得进展的最大限制因素。发现技术缺陷无疑是至关重要的,例如重复数据、缺失值、无序序列和偏离历史数据的预期模式,但这只是第一步。更苛刻和关键的一步是衡量业务质量,检查数据是否符合上下文。
现代数据质量是自上而下的努力,由业务 KPI 和战略需要推动。
随着业务团队将数据用于新用例,数据质量滞后的风险会更高。企业正在竞相更快地利用数据资产,并且不希望因棘手的数据质量障碍而放慢速度。
业务质量不是可有可无的。着手进行数字化转型的组织需要重新审视其数据质量处理方式,以便更加以数据为导向,并利用数据作为竞争优势。
本文研究探索了数据质量的现代化。
规则的变化
2022 年,拥有 1000 名员工的组织拥有 150 多个 SaaS 应用程序。这些应用程序中的大多数都存储与其需求相关的数据,但是,为了进行跨组织分析,需要汇总、丰富和集成这些数据。这一过程大大增加了数据质量计划的范围,过去所有数据都来自少数以结构化方式存储数据的内部 ERP 或 CRM 应用程序。新的 AI 和 ML 用例通常使用依赖于高质量真实数据的合成数据。
如果说过去十年我们一直在积累更多数据,那么现在十年我们更关心的是确保我们拥有正确的数据。Gartner 估计,数据质量差的成本平均为每个组织 1500 万美元。在这个十年中,数据网格、数据产品、数据共享和数据市场等新的数据传输方式开始成为主流。
以零售应用程序中的订单表为例。世界各州、县和城市的销售税差别很大,而且经常变化。您的数据质量子系统应该检测它是否推断出某个订单可能应用了错误的税款。组织越早发现和纠正问题,成本就越低。
本文的标题颇具讽刺意味,因为传统数据质量的很大一部分都是基于规则的。是的,重新思考需要我们从静态的预定义规则转向着手发现隐藏在数据中的规则。这些规则是从数据中存在的模式推断出来的,使用机器学习算法可以预测新传入数据的可靠性。当推断出的规则与现有规则相结合时,就会出现一个更加丰富的数据质量系统。
我们已经意识到在动态且快速变化的数据世界中创建规则和策略的局限性。新的前沿是使用复杂的 ML 模型来理解数据的“行为”,并动态检测异常并推荐补救措施。发现规则的一个例子是基于通常进入系统的数据量。随着业务以稳定的速度增长,该数据量也会增加,这可以使用 ML 技术进行预测。如果突然出现无法解释的偏离预期范围的情况,那么数据质量产品应该提醒利益相关者。越快完成这项工作,损害的爆炸半径就越小。
现代数据质量四大关键因素
下图展示了处理数据质量的新方法。
现代数据质量方法是基于情境的,旨在更快、更可靠、更可信地提供数据结果。
现代数据质量的四大支柱是:
1.自上而下的业务 KPI
如果从未创造过数据质量一词,而是以“业务质量”为目标,那么 IT 团队可能会受益匪浅。在这种情况下,确保数据正确的存在理由就是确保实现业务成果。在这种情况下,重点从数据的基础设施转移到其上下文。
但是,“背景”到底是什么?
这是数据的商业用途应用。例如,“客户”的定义在不同的业务部门之间可能有所不同。对于销售而言,客户是买家;对于营销而言,客户是影响者;对于财务而言,客户是付账的人。因此,上下文会根据处理数据的人而变化。数据质量需要与上下文保持一致。在另一个例子中,国家代码 1 和地区美国和加拿大可能看起来类似,但事实并非如此。
不同的团队可能会将表中的相同列用于截然不同的目的。因此,数据质量的定义也各不相同。因此,数据质量需要应用于业务环境层面。
2.产品思维
数据网格原则所引发的概念令人信服。它们改变了我们的思维,使那些在实践中可能行不通的旧方法在今天实际上可以发挥作用。最大的变化是我们对数据的看法:作为一种产品,必须考虑到用户及其期望的结果来进行管理。
组织正在应用产品管理实践来使其数据资产可供使用。“数据产品”的目标是通过让各种消费者更容易使用和分析“可信数据”,鼓励更广泛地利用“可信数据”。这反过来又提高了组织以低摩擦方式快速从其数据资产中提取情报和见解的能力。
同样,数据质量也应以相同的产品管理原则来处理。数据生产者应发布“数据合同”,列出向消费者承诺的数据质量水平。通过将数据质量视为头等大事,生产者应了解数据的使用方式及其质量的影响。
数据产品的数据质量SLA旨在确保消费者了解数据的新鲜度等参数。
3.数据可观测性
通常,数据使用者是第一个发现异常的人,例如首席财务官在仪表板上发现错误。此时,一切都变得一团糟,IT 团队进入被动救火模式,试图检测复杂架构中错误出现的位置。
数据可观测性通过不断监控数据管道并使用先进的机器学习技术来快速识别异常,甚至主动预测异常,以便在问题到达下游系统之前得到补救,从而填补了这一空白。
数据质量问题可能发生在管道的任何地方。但是,如果问题能尽早发现,那么补救成本就会更低。因此,采用“左移”的理念。数据可观测性产品通过以下方式增强数据质量:
数据发现从数据源和数据管道的所有组件(例如转换引擎和报告或仪表板)提取元数据。
监控和分析——针对动态数据和静态数据。那么使用中的数据呢?
预测异常检测——使用内置
警报和通知
数据质量是数据可观测性的基础部分。下图展示了数据可观测性的总体范围。
数据可观测性是一个多维概念,涉及三个领域:数据质量、管道或基础设施以及包括成本指标在内的业务运营。这三个领域分别提供信任、可靠性和价值。
4.整体数据治理
数据质量子系统与整体元数据管理密不可分。
一方面,数据目录存储已定义或推断的规则,另一方面,DataOps 实践生成元数据,进一步完善数据质量规则。数据质量和 DataOps 确保以正确的规则和上下文以自动化方式持续测试数据管道,并在推断出异常时发出警报。
事实上,数据质量和 DataOps 只是元数据众多用例中的两个。现代数据质量与这些其他用例集成在一起,如下图所示。
长期以来,元数据管理一直受到困扰,因为这些用例都是孤立的。现代数据质量是全面统一的元数据管理平台的一部分。
综合元数据平台将数据质量与数据治理的其他方面整合在一起,改善了业务用户(例如数据消费者)与数据产品的生产者和维护者之间的协作。他们共享相同的上下文和指标。
这种紧密集成有助于采用左移方法来提高数据质量。持续测试、编排和自动化有助于降低错误率并加快数据产品的交付速度。这种方法对于提高数据团队的信任和信心是必不可少的。
这种集成是企业采用数据产品、数据网格和数据共享(如交易所和市场)的现代数据传输方法的基础。
现代数据治理的优势
数据质量计划的目标是建立对数据的信任。然而,信任是一个广泛且通常定义不明确的术语,可能包括许多控制和管理数据的主题。当元数据管理平台的所有组件作为一个单元工作时,可信数据是可能的。例如,如果没有准确的数据,就很难确保所有数据安全和隐私程序都能按预期工作。
这应该是首席数据官(CDO)的主要目标。
但许多组织未能实现多次数据治理尝试,因此该术语现已被禁止使用。然而,现实情况是,全球合规性正在不断提高,无论我们称之为数据治理计划的是什么,业务质量问题都是必不可少的。
现代数据质量方法的好处是:
问责制
在数据网格和数据产品的去中心化数据传输世界中,现代方法允许业务团队负责数据质量。毕竟,域名所有者是主题专家,最了解他们的数据。
业务用户通过解决上下文问题来满足关键 KPI,从而增强数据质量的技术方面。然后,数据质量成为打包数据产品中承诺的 SLA。并且它随着数据的变化而不断发展。因此,数据产品有新版本。数据消费者不再需要猜测是否信任数据。
高效率
“数据质量延迟”是指新数据到达与执行数据质量检查和补救之间的时间。现代工具应该能够
现在,来自多个外部数据源(例如多种格式的 SaaS 产品)的数据越来越多,而且数据往往以实时流的形式到达,而不是内部系统。过去将数据放在单一目标位置并以批处理操作执行数据质量的技术已不再足够。旧的静态方法将数据质量视为仅在固定间隔内运行的静态数据的独立工作。
现代的“持续质量”方法是主动的和动态的。它与 DataOps 原则同步,包括编排、自动化和 CI/CD。这种方法使数据团队能够更快地交付数据产品。它允许过去每季度发布一次的组织加速并每周发布多次。
提高生产率
传统数据质量方法失败的原因之一是,实现最终目标需要投入大量的精力和时间。宝贵的员工陷入手动修复下游系统中的数据质量问题的泥潭。通常,耗时的协调工作是在 Microsoft Excel 电子表格中进行的。这只能治标不治本。
现代方法可以在问题根源附近发现和修复问题,从而节省时间和成本。通过 DataOps 提供的各种自动化功能以及与数据治理其他方面的集成,这种方法可以提高数据团队的生产力。
一旦数据质量问题得到解决,数据团队
降低成本
随着数据量不断增加,为了实现持续的质量,系统需要自动扩展。这通常是基于云的解决方案可以提供帮助的地方。但是,即使在云中,也有两种方法可以运行数据质量检查 - 一种是通过不断监控动态数据的代理,另一种选择是将静态数据推送到云数据仓库中并使用下推功能。每个选项都适用于独特的用例,并提供架构和成本权衡。
在前一种方法中,数据质量问题在数据进入目标分析系统之前就被检测到。这对于流数据中的异常检测很有用。然而,它需要一个处理引擎,比如 Apache Spark 集群。
在后一种情况下,数据首先进入分析系统(例如 Snowflake),然后数据质量产品生成 SQL 查询以在存储引擎内部执行。此选项可最大限度地减少数据移动,因此可能更安全。此外,它还可以利用分析系统的自动缩放功能。架构师应该分析每个选项的总成本来评估合适的架构。
小结
在当今世界,人们过于重视分析的速度和敏捷性,数据质量却因此受到影响。然而,现代数据质量方法再次使其成为首要问题,没有它,现代分析就不完整。重点已从单纯检查完整性、唯一性和完整性等技术维度转向可靠性、信任度和上下文准确性。
新方法还解决了数据网格和数据产品等新概念中数据质量交付速度的问题。现代数据质量平台提高了数据效用,并直接有助于改善公司的战略举措,例如卓越运营、竞争优势、更高的收入和建立声誉。