数据质量体系结构
1. 建立质量传统、重建运行过程
众所周知,如果没有来自组织高层对建立企业范围的数据质量体系的承诺,技术人员说明的数据质量问题尝试往往很难发挥作用。在日本,汽车制造商通常将控制数据质量的态度渗透到组织的各个层面,从CEO到一线的生产线人员,从而保证了其准确、高效的决策效率。为了说明管理层对建立数据质量文化的重要性,我们使用一个大型的连锁药店作为例子来说明,在这家药店,采购部门和数量庞大的供应商保持合作、供应关系。在采购部,采购助理将每一个采供来的药物录入到IT系统当中,这些信息包含大量的属性。这样采购助理会面对巨大的工作量,他们不得不评估一个小时他们可以录入多少的数据,多长时间才可以将这些信息录入完毕。同时,采购助理也没有清晰的概念,谁将使用那些数据,那些数据对那些使用者更加重要。有时,采购助理会由于明显的输入错误受到指责,但更麻烦的情况是,采购助理拿到的数据本身就是不完整或不可靠的。例如:对药物的毒性水平,没有规范化的标注,长期以来,不同的药品,不同的品类,这个指标都是各不相同的。那么,这个药店应该如何提高数据质量呢? 这里有一个9步骤的数据质量模版,它不仅可以用到这个药店,也可以应用到其他任何一个希望对数据质量进行管理的组织。这9个步骤包括:
● 获得来自组织高层对数据质量文化的承诺
● 在执行层面上,形成保证数据质量的工作流程
● 对提高数据录入的环境有所投资
● 提高应用间集成性
● 需要投入成本来改变存在问题的工作流程
● 提高end-to-end的团队理解
● 提升部门间的协作
● 公开的表彰数据质量提升的事件
● 提供持续的过程,不断的量度和提升数据质量
从上面我们可以看到,在这个药店,需要一些资金用于修改数据数据录入系统,为采购助理提供一些录入时的选择和上下文提示。公司的管理层也需要明确地强调采购助理工作的重要性,指明采购助理的工作是公司各个层面决策正确、有效性的基础。采购助理的辛勤工作应该受到来自管理层的公开的表彰,并进行奖励。从而达到实现团队的end-to-end互相了解和欣赏。
在执行层的支持和组织框架就需之后,就需要选用特定的技术方案。后面,我们将讨论如何选择、使用恰当的技术来支持数据质量目标。这些技术目标包括:
● 早期的诊断和治疗数据质量问题
● 明确对源系统的需求,集中力量提供更高质量的数据
● 明确地描述在抽取、转换和加载过程中遇到的数据的错误问题
● 提供捕捉数据质量问题的框架
● 提供精确的度量数据质量的框架
● 为最终的数据提供质量信心度量
2. 数据质量探查的角色
数据质量探查是一种描述数据上下文、一致性、数据结构的分析技术。某种意义上说,当使用SELECT DISTINCT对某些字段数据查询时,就在完成一个数据质量探查的工作。现在,已经有很多功能强大的工具可以帮助完成数据质量探查的工作。一般来说这些工具已经提供了非常方便的接口来帮助用户了解数据和数据间的关系。在数据仓库项目中,数据质量探查可以同时在战略和战术的的层面上扮演重要角色。在DW项目开始时,一个数据源确定之后,就需要首先对它进行一次快速的数据质量探查过程来评估数据质量,为是否才用其作为有效的数据源作为策依据。理想的情况下,这种战略性的评估应该在1,2天内完成。早期的了解数据、揭示数据的问题是一个负责任的步骤。几个月后才进行这项工作,对项目的目标有可能会是致命的。
从战略的角度决定将这个数据源纳入到项目中后,还需要有一个详细的战术性的数据质量探查来尽可能揭示更多的数据问题。在这个阶段揭示的问题最终需要呈现在详细的规格说明中来处理,处理的方式包括:1) 将这些数据反馈给源系统,提请修正这些问题;或2) 将这些问题数据的处理融合到ETL过程中。我们相信绝大多数的数据问题都可以在这两个过程中揭示出来,并得到解决。
0
相关文章