技术开发 频道

关于数据仓库数据质量的问题探讨

  【IT168技术文档】
一、 数据质量和清洗

  ETL是数据仓库的最重要的基础,良好的ETL从业务系统中抽取数据,转换数据质量,保证数据一致性,这样才能够保证各个独立的不同的数据源能够集成到一起,最终只有这样才能真正达到决策支持的目的。
数据清洗是ETL系统的一个最重要的步骤,数据的抽取和加载也是很必要的,但是他们只负责数据的迁移和重组格式。只有数据清洗才能真正改变数据,并且为了目标提供高质量的数据保证。

高质量数据意味着:
• 正确的。数据的值和描述一定是真实的和业务系统保持一致的。
• 明确的。数据的值和描述有且只能有一个意思
• 一致的。数据的值和描述在全局中也即数据仓库中都表示一个意思
• 完整的。这有两个方面。首先确保每一条数据都必须是有意义的(不能为NULL值),其次要求我们在处理过程中不能有任何信息的“损失”

  通常情况下,当BI/DW项目结束时,用户总是会将BI报表和OLTP报表或者明细报表进行比较,以检验数据仓库报表的准确性。一旦用户发现它们之间是不一致的或者误差超过一定比率,他们往往就会认为BI项目很失败。
没有绝对的准确,但是一定要知道为什么不准确,这是数据仓库项目的一个基本要求。

  数据仓库的数据来自于多个数据源,所以数据的一致性很难得到保证,既然没有绝对的准确,那么就需要制定一个标准。因此我们建议和客户达成一种相对标准,定义一个可以接受的误差范围。在这个前提下,我们找到误差的原因,并给出分析报告,来提高客户的满意度和对数据仓库项目的信心,从而确保数据仓库项目成功的机率。

0
相关文章