对于任何依赖数据进行决策的组织来说,数据质量都是一个关键因素,但要找到一个令人信服的用例来证明投资数据质量改进项目是件非常困难的事。虽然研究表明,平均每家公司每年因数据质量差而损失 1500 万元,但很难说服业务部门仅根据行业平均水平来分配资源。
为了确保数据质量计划得到认可,必须超越一般统计数据,确定组织内的具体用例,以证明数据质量不佳的切实影响。这包括确定数据质量问题阻碍运营、影响业务用户并最终影响利润的领域。通过展示数据质量改进如何解决这些挑战的具体示例,您可以建立强有力的投资案例并在组织内推动有意义的变革。
流程概述
找到一个引人注目的数据质量用例并不像看起来那么困难。它主要需要吸引合适的利益相关者并遵循一个简单的流程。在本文中,我们提出了一种七步方法,帮助您在组织内识别和阐明强大的数据质量用例。
确定关键数据域和资产:首先确定对您的业务来说最重要的数据领域及其包含的宝贵数据。了解如何使用这些数据来制定关键业务决策,以及哪些数据集被视为最重要的。
收集用户的见解:与每天使用数据的人交谈。与业务用户、数据所有者和分析师交流,了解他们因数据质量问题而面临的挑战。这将帮助您找出数据质量差如何影响他们工作的具体例子。
优先考虑数据质量评估:根据与用户的讨论,选择一些已知或潜在数据质量问题的重要数据集。重点关注对业务运营影响最大且改进将产生最大效益的数据集。
剖析数据资产:分析数据以发现常见的质量问题并验证用户提出的疑虑。这将让您清楚地了解所选数据集中数据质量问题的类型和严重程度。
计算数据质量差的成本:不仅要识别问题,还要量化其影响。确定数据质量问题如何影响您的业务运营(如财务损失、错失机会或效率降低)。
估算数据质量投资:概述解决您发现的数据质量问题所需的资源。这包括数据管理员、数据工程师、数据所有者的时间投入,以及任何必要数据质量工具的成本。
为数据质量建立令人信服的案例:通过将数据质量不佳的成本与改进所需的投资进行比较,将所有因素综合起来。为投资数据质量制定清晰而简明的理由,强调投资的潜在回报和对组织的益处。
1.确定关键数据域和资产
要建立强有力的数据质量案例,首先要确定在使您的业务以数据为导向方面发挥关键作用的数据域。这可能是一个严重依赖准确和及时的数据进行决策的领域,例如:
生产计划:库存、需求和生产能力的精确数据对于优化制造流程至关重要。
营销活动优化:通过有关活动效果、客户行为和市场趋势的准确数据来提供预算分配和策略信息。
预防客户流失:及时了解客户参与度、满意度和反馈数据有助于识别有风险的客户并主动满足他们的需求。
此过程需要对组织的数据状况有深入的了解。您需要访问数据源,并对数据模型以及数据如何在各种业务流程中流动有基本的了解。密切关注数据生命周期,因为每个阶段都会影响数据质量:
数据收集:数据是如何收集的?数据来源有哪些?数据输入或自动收集方法是否存在潜在问题?
数据存储:数据存储在哪里?数据是否有多个副本或版本?如何管理数据安全和访问?
数据处理:如何清理、转换和准备数据以供分析或用于 AI 算法?数据管道中是否存在潜在的故障点或不一致之处?
了解特定领域内数据的用途和流程后,确定推动关键业务决策的最关键数据集。这些数据集将成为数据质量评估的重点。最后,确定与这些资产相关的数据所有者和利益相关者,因为他们对下一步至关重要。
2.收集用户的见解
虽然了解数据环境至关重要,但从每天使用数据的人们那里收集见解也同样重要。依赖数据进行决策的业务用户通常亲身体验过数据质量差的后果。他们可以提供有价值的例子,说明不准确、不完整或过时的数据如何影响他们的工作并阻碍他们实现业务目标的能力。
然而,并非所有业务用户都具备详细阐述数据质量问题的技术专业知识。在这种情况下,请与对数据及其局限性有更深入了解的数据管理员、数据分析师或应用程序所有者进行交流。这些人可以对存在的具体类型的数据质量问题及其潜在根本原因提供更多技术见解。
在采访这些利益相关者时,鼓励他们分享遇到数据质量问题的具体实例。询问以下问题:
“您能回忆一下您曾经遇到过的数据质量问题,影响到您的工作吗?”
“您是否曾因数据缺失、过时或不正确而无法完成任务或做出决定?”
“由于数据质量问题,您面临哪些具体挑战?
这些数据利益相关者是您了解过去和现在数据质量挑战的最 佳信息来源。他们的参与不仅对于确定用例至关重要,而且对于确保您的数据质量计划获得认可也至关重要。这些利益相关者通常对预算分配和项目批准有影响,因此从一开始就让他们站在您这边会增加项目成功的可能性。此外,他们可以通过突出显示需要立即关注的最关键数据集来帮助您确定工作的优先顺序。
3.优先考虑数据质量评估
在采访数据利益相关者并了解他们的痛点后,您将更清楚地了解组织的数据质量状况。您将知道哪些数据域和资产被视为不太可靠,哪些数据域和资产对业务流程的影响最大。这些见解对于确定数据质量工作的优先级至关重要。
请记住,初始数据质量计划应着眼于快速见效。针对可靠性低且业务影响大的数据域和资产。首先解决这些领域将带来最显著的改进,并为未来的数据质量项目积蓄力量。
您的访谈还将揭示数据质量问题如何影响业务用户,并提供有关他们对数据质量期望的宝贵见解。了解他们对“好”数据的定义对于将您的工作与业务需求相结合至关重要。
根据这些信息,选择几个数据域及其相关资产进行进一步验证。这些是您将进行深入分析的数据集,以确认可疑的数据质量问题并为您的用例收集详细证据。
4.剖析数据资产
数据分析是检查数据资产(例如表、文件或数据库)中的数据以了解其结构、内容和整体质量的过程。它涉及收集统计数据、识别模式和评估数据特征,以发现潜在问题并全面了解数据。
全面的数据分析流程(通常称为数据质量评估)不只是简单地检查样本值。它包括使用数据质量检查进行严格测试,这些检查是确定数据是否符合预定义质量标准的验证规则。例如,数据质量检查可能会验证“business_phone”列是否包含正确格式的有效电话号码,以及此信息是否存在于所有记录中。
数据分析通常需要使用专门的工具,这些工具可以连接到各种数据源并自动进行分析。这些工具提供了各种内置数据质量检查,可以识别常见的数据问题。数据分析工作应重点关注前面步骤中确定的最关键数据集。
利用从用户访谈中获得的见解来配置数据质量检查,以验证他们的担忧。例如,如果用户报告 20% 的客户电话号码格式错误,您可以创建数据质量检查来验证这一观察结果并提供问题的具体证据。这种方法可确保您的数据分析符合实际业务需求并解决用户面临的特定挑战。
您可以使用数据质量工具,例如DQOps。它们的开源版本提供了一个非常强大的数据分析组件,该组件使用 AI 配置最常见的数据质量检查,以识别常见的数据质量问题。数据分析器会生成一份报告,您可以与数据利益相关者共享该报告。
5.计算数据质量差的成本
通过分析确定并确认数据质量问题后,下一步就是评估其对业务的影响。数据质量问题通常分为多个维度,每个维度都有各自的潜在后果。分析每个维度的影响可以帮助您量化数据质量不佳的成本。
以下示例说明了不同的数据质量维度如何影响您的业务:
及时性:数据过时或延迟可能会导致错失机会和决策不准确。例如,如果预算预测的关键数据无法及时提供,则可能导致资源分配不当和目标无法实现。
准确性:不准确的数据会直接影响运营效率和客户满意度。例如,错误的电话号码会阻碍公司与客户进行有效沟通,导致销售损失和关系受损。
一致性:不同系统之间的数据不一致会造成混乱,并削弱对数据完整性的信任。如果数据仓库中报告的总收入与 ERP 系统中记录的收入不同,则可能导致财务差异和报告错误。
有效性:无效记录会给员工带来不必要的工作,如果将数据用于合规目的,甚至会导致监管问题。例如,不完整或不准确的客户数据会使金融服务中的 KYC(了解您的客户)合规工作变得复杂。
通过检查您发现的具体数据质量问题并考虑它们在这些维度中的影响,您可以开始量化数据质量不佳的成本。例如:
如果用于预测的记录中有 1% 是无效的,则可能导致预计预算出现 1% 的偏差。如果该业务领域的年度预算为 1 亿元,则此数据质量问题的潜在成本每年为 100 万元。
如果数据延迟导致公司每季度错失价值 50,000 元的关键销售机会,那么数据及时性差每年造成的成本将达到 200,000 元。
通过量化数据质量问题的财务影响,您可以为投资数据质量改进计划建立更有力的理由。
6.估算数据质量的投资
现在您已经了解了解决数据质量问题的潜在收益,现在是时候估算实现这些改进所需的投资了。这包括确定必要的资源、概述项目时间表以及定义修复最关键数据质量问题所涉及的活动。
任何数据质量项目中最重要的资源都是人。估算拥有领域专业知识的业务用户和将实施技术解决方案的工程师所需的时间投入。根据您之前的分析,您应该已经知道数据质量问题的根源。这将帮助您确定谁需要参与:
业务应用程序问题:如果问题源于业务应用程序,您将需要聘请软件开发人员来实施额外的验证规则或改进数据输入流程。
数据转换错误:如果数据在转换过程中损坏,您将需要数据工程师应用数据清理逻辑,纠正错误,并将受影响的数据重新加载到数据湖或仓库中。
除了人员成本,还要考虑工具成本。数据质量平台可以自动化数据质量管理的许多方面,从分析和监控到补救。虽然商业平台可能很昂贵,但像 DQOps 这样的开源选项提供了一种经济高效的替代方案。
最后,考虑基础设施的成本。如果您选择在本地部署数据质量平台,则需要考虑与托管解决方案相关的硬件和维护成本。
通过仔细评估数据质量项目所需的投资,您可以证明所提出的解决方案的可行性及其潜在的投资回报。
7.建立令人信服的数据质量案例
通过清晰地了解解决数据质量问题的成本和潜在收益,您就可以为数据质量计划构建一个引人注目的用例。
首先关注因数据质量差而造成最大损失的数据域和资产。将这些损失与运行专注于这些关键领域的数据质量改进项目的估计成本进行比较。强有力的商业案例应旨在解决潜在收益远远超过投资的问题。理想情况下,目标问题造成的损失至少是补救成本的五倍。这为意外的实施成本或项目未实现其所有初始目标提供了缓冲。
通过针对受数据质量问题阻碍的关键业务流程,小规模数据质量改进项目的成本可能只是潜在收益的一小部分。
为了有效地传达您的用例,请创建一个包含以下元素的有说服力的演示文稿:
业务领域概述:清晰描述受数据质量问题影响的业务领域。
业务流程影响:逐步解释已识别的数据质量问题如何对业务流程产生负面影响。
数据质量问题描述:详细说明具体的数据质量问题、其范围以及影响的业务流程。
财务影响:提供数据质量问题造成的财务损失的清晰、可量化的估计,并提供数据和计算支持。
用户评价:包括用户的评价,这些用户能够证明数据质量问题对其工作的影响。量化处理数据质量差的后果所花费的额外时间和精力。
项目成本和时间表:概述实施数据质量改进的预计成本,并提供实现这些改进的实际时间表。
预期未来状态:描述项目完成后的预期结果,强调如何避免未来发现的问题。
资源分配:通过概述所需资源及其在项目中的预期参与程度来记录预计成本。
包含这些元素的用例成功率很高。在介绍您的案例之前,请与您在流程早期采访过的数据利益相关者一起审查它。这可以确保一致性并收集有价值的反馈,从而进一步加强数据质量提案。