数据库 频道

数据标准化指南:类型、好处和方法

当从整个企业各种应用程序中提取数据时,我们希望收到相同数据的一致定义和格式。但实际上,这种情况很少发生。数据集中存在的差异,尤其是跨应用程序甚至在同一应用程序内,使得几乎不可能将数据用于任何目的,包括从日常操作到商业智能。

如今,企业普遍使用多个 SaaS 和内部应用程序。每个系统都有自己的要求、约束和限制。这就是为什么跨应用程序的数据必然包含差异。如果我们考虑到拼写错误、缩写、昵称和打字错误,我们就会意识到相同的值可以有数百种不同的表示形式。这就是必须对数据进行标准化以使其可用于任何预期目的的地方。

在这篇文章中,我们将了解有关数据标准化的内容:它是什么、为什么需要它、何时需要它,以及如何做到这一点。

一 什么是数据标准化

在数据世界中,标准是指某个域的每个值都必须符合的格式或表示形式。因此,标准化数据意味着:将不正确或不可接受的数据表示形式转换为可接受的形式的过程。

了解什么是“可接受”的最简单方法是了解业务需求。理想情况下,组织必须确保大多数应用程序使用的数据模型应符合其业务需求。实现数据标准化的最 佳方法是使数据表示、结构和定义与组织要求保持一致。

二 数据标准化错误的类型和示例

下面给出了非标准化数据如何最终进入系统的一些示例:

●客户电话号码在一个系统中保存为字符串,而在另一个系统中只允许为包含8位数字的号码,导致数据类型不一致。

●客户姓名在一个系统中保存为单个字段,而在另一个系统中则作为名字、中间名和姓氏的三个单独字段进行覆盖,从而导致结构不一致。

●客户出生日期在一个系统中的格式为 MM/DD/YYY,而在另一个系统中的格式为月日、年 – 导致格式不一致。

●客户性别在一个系统中保存为 Female 或 Male,而在另一个系统中保存为 F 或 M – 导致域值不一致。

除了这些常见情况之外,拼写错误、转换错误和缺乏验证约束也会增加数据集中的数据标准化错误。

三 为什么需要标准化数据

每个系统都有自己的一套规范和限制,从而导致独特的数据模型及其定义。因此,需要先转换数据,然后才能由任何业务流程正确使用。

通常,要执行以下操作时,就知道是时候标准化数据了:

1. 确认输入或输出数据

组织有许多接口可以交换来自外部利益相关者(例如供应商或合作伙伴)的数据。每当数据进入企业或导出时,就必须使数据符合所需的标准,否则不标准化的数据混乱只会越来越大。

2. 为 BI 或分析准备数据

相同的数据可以用多种方式表示,但大多数 BI 工具并不是专门处理数据值的每种可能的表示形式,并且最终可能会以不同的方式处理相同含义的数据。这可能会导致 BI 结果有偏差或不准确。因此,在将数据输入 BI 系统之前,必须对其进行清理、标准化和重复数据删除,以便可以获得正确、有价值的见解。

3. 整合实体以消除重复

数据重复是企业面临的最大数据质量危害之一。为了高效且无错误的业务运营,必须消除属于同一实体(无论是客户、产品、位置还是员工)的重复记录,并且有效的重复数据删除流程要求遵守数据质量标准。

4. 组织间数据共享

为了使数据能够在部门之间互操作,它必须采用每个人都可以理解的格式。大多数情况下,组织在 CRM 中拥有销售和营销人员可以理解的客户信息。这可能会导致任务完成延迟并阻碍团队生产力。

四 数据清理与数据标准化

术语数据清理和数据标准化通常可以互换使用。但两者之间有细微的差别。

数据清理是识别不正确或脏数据并将其替换为正确值的过程,而数据标准化是将数据值从不可接受的格式转换为可接受的格式的过程。

这两个过程的目的和结果是相似的:消除数据集中的不准确和不一致。这两个流程对于数据质量管理计划都至关重要,并且必须齐头并进。

五 标准化数据步骤

数据标准化过程有四个简单的步骤:定义、测试、转换和重新测试。让我们更详细地了解每个步骤。

1. 定义标准

第一步,必须确定什么标准可以满足组织需求。定义标准的最 佳方法是为企业设计数据模型。该数据模型将代表某个实体的数据值必须符合的最理想状态。数据模型可以设计为:

●确定对业务运营至关重要的数据资产。例如,大多数企业捕获和管理客户、产品、员工、位置等数据。

●定义所识别的每个资产的数据字段并决定结构细节。例如,可能想要存储客户的姓名、地址、电子邮件和电话号码,其中“姓名”字段跨越三个字段,“地址”字段跨越两个字段。

●为资产中标识的每个字段分配数据类型。例如,“名称”字段是字符串值,“电话号码”是整数值,等等。

●定义每个字段的字符限制(最小和最大)。例如,姓名不能超过 15 个字符,电话号码不能超过 8 位数字等。

●定义字段必须遵循的模式- 这可能不适用于所有字段。例如,每个客户的电子邮件地址应遵守正则表达式:[chars]@[chars].[chars]。

●定义某些数据元素必须放置在字段中的格式。例如,客户的出生日期应指定为 MM/DD/YYYY。

●定义数值的测量单位。例如,客户的年龄以年来衡量。

●定义必须从一组特定值派生的字段的值域。例如,客户年龄必须是18到50之间的数字,性别必须是男性或女性,等等。

然后,可以将设计的数据模型放置在 ERD 类图中,以帮助可视化每个数据资产的定义标准以及它们之间的相互关系。零售公司的示例数据模型如下所示:

2. 标准测试

数据标准化技术从第二步开始,因为第一步的重点是定义应该做什么——一次性完成或每隔一段时间增量审查和更新的事情。

已经定义了标准,现在就要查看当前数据与该标准的符合程度了。下面,我们将介绍多种测试数据值是否存在标准化错误的技术,并构建可用于解决问题的标准化报告。

A 解析记录和属性

设计数据模型是数据管理中最关键的部分。但不幸的是,许多组织没有及时设计数据模型并设置通用数据标准,或者他们使用的应用程序没有可定制的数据模型 - 导致他们捕获不同字段名称和结构的数据。

当从不同系统查询信息时,可能会注意到某些记录将客户姓名作为单个字段返回,而其他记录则返回涵盖客户姓名的三个甚至四个字段。因此,在筛选任何数据集的错误之前,必须首先解析记录和字段,以获得需要测试标准化的组件。

B 构建数据分析报告

下一步是通过分析系统运行解析后的组件。数据分析工具报告有关数据属性的不同统计数据,例如

●一列中有多少个值符合所需的数据类型、格式和模式?

●一列中存在的平均字符数是多少?

●数字列中的最小和最大值是多少?

●列中最常见的值是什么以及它们出现了多少次?

C 匹配和验证模式

尽管数据分析工具确实会报告模式匹配,但由于它是数据标准化测试的重要组成部分,因此我们将更深入地讨论它。为了匹配模式,需要首先为字段定义一个标准的正则表达式,例如电子邮件地址的正则表达式可以是:^[a-zA-Z0-9+_.-]+@[a-zA- Z0-9.-]+$。测试期间必须标记所有不遵循给定模式的电子邮件地址。

D 使用数据字典

可以通过针对字典或知识库运行值来测试某些数据字段的标准化。还可以针对自定义创建的字典运行它们。这样做通常是为了匹配拼写错误、缩写或缩写名称。例如,公司名称通常包括 LLC、Inc、Ltd. 和 Corp. 等术语。对照包含此类标准术语的字典运行它们可以帮助识别哪些术语不符合所需标准或拼写错误。

E 标准化测试地址

在测试数据标准化时,可能需要测试特定字段,例如位置或地址。地址标准化是根据权威数据库(例如运输行业地址规范)检查地址格式并将地址信息转换为可接受的标准化格式的过程。

标准化地址应正确拼写、格式化、缩写、地理编码,并附加准确的 ZIP+4 值。所有不符合要求标准的地址(特别是应该接收交货和发货的地址)都必须进行标记,以便可以根据需要进行转换。

3. 数据转换

在数据标准化过程的第三步中,最终是将不合格的值转换为标准化格式。这可以包括:

●转换字段数据类型,例如将电话号码从字符串转换为整数数据类型,并消除电话号码中存在的任何字符或符号以获得 8 位数字。

●转换模式和格式,例如将数据集中存在的日期转换为 MM/DD/YYYY 格式。

●转换计量单位,例如将产品价格转换为美元。

●将缩写值扩展为完整表单,例如替换缩写的美国州:NY 到 New York,NJ 到 New Jersey,等等。

●消除数据值中存在的噪音以获得更有意义的信息,例如从公司名称中删除 LLC、Inc. 和 Corp.,以获得没有任何噪音的实际名称。

●以标准化格式重建值,以防需要将它们映射到新应用程序或数据中心(例如主数据管理系统)。

所有这些转换都可以手动完成(这可能既耗时又低效),或者您也可以使用自动化工具,通过自动化标准测试和转换阶段来帮助清理数据。

4.复测达标

转换过程结束后,最好重新测试数据集是否存在标准化错误。可以比较标准化前和标准化后的报告,以了解所配置的流程修复数据错误的程度以及如何改进这些错误以获得更好的结果。

六 小结

数字化转型通常始于数据标准化,或将所有各种数据集转换为一种一致格式的过程。这并不令人兴奋,但却是事实。想要全面了解组织吗?标准化数据。您是否认为在任何地点实时投影机器的全息数字孪生是一种创新?标准化数据。需要降低整个供应链和维护周期的成本,而无需进行耗时的审核吗?你明白了。

信息就是力量,但如果没有适当的场景,这种力量可能是虚幻的。例如,假设您正在监督一款新车的全球推广。该车在前 12 个月内售出 500 万辆。听起来棒极了,对吧?那么,如果您组织中的所有其他现役汽车(包括旧型号)在同一时期内售出 700 万辆呢?另外,如果这 500 万台中的 93% 仅来自一个地区怎么办?其中 54% 在销售后的前三个月内被退货和退款。场景就是一切,只有当数据准备好、可用且可靠时,清晰的场景才有可能。

0
相关文章