技术开发 频道

关于数据仓库数据质量的问题探讨


三、 处理对策

数据清洗通常根据不同的情况进行处理,在这里没有办法一一列举,只能对常用的几种情况进行分析处理。

1. 维度:NULL值
假如维度数据为空,在数据处理时可能会导致错误的处理,通过SQL处理时事实表中可能会丢失这部分数据。

2. 维度:外键丢失
前者提到处于数据库性能考虑,业务系统有时候会放弃外间约束或者检查约束,但这样数据的完整性有时无法得到保证,当数据被修改或者删除的时候,这部分数据可能会变成孤儿数据。

3. 度量值:超出范围
假如没有约束和检查规则,原始数据表中的度量值可能为空或者超出预想的范围,当我们处理和计算这部分数据的时候,也会导致错误的结果。

4. 业务逻辑和录入错误
很显然,这部分错误,我们基本上是无能为力的,缺乏有效的验证和纠错,实际上数据仓库的流水线作业形式和巨大的数据量,让我们对这些数据的校验变得不太可能了。我们只能祈求业务系统录入人员的责任心了。
0
相关文章