技术开发 频道

数据仓库的黄金时代已经来临 你做好准备了吗?


今天比昨天容易多了-所以准备好吧!

    现在有很多更容易的方式来建立数据仓库。甚至有书一步一步清楚地教给你必须做些什么。你可以长时间反复讨论你的数据仓库项目用什么工具最好以及什么数据库最容易使用。

    但是不管你使用什么数据库或者给你什么样的工具,建立数据仓库的概念是一样的。你需要设计并创建维表,事实表和元数据表。用的最多的是星型模式。总是要有一个ETL过程,而这总是很困难的。清空和转换过程也必不可少,以保证数据质量。现在有如此多的ETL工具来清空和建立数据仓库,很难跟踪它们。有如此多的软件产品供选择以建立各种不同的商务智能报告-网络分析报告,计划报告,预测报告,交互报告甚至dashboard reports。但是又能如何呢!现在我不再需要这些工具来建立一个动态数据仓库和报告了,就像12年前那样。并且你也不需要!用你所拥有的开始已经足够了。

    我们12个人花了两年的时间在我们第一个数据仓库项目的开发和学习上。它也将花费你一些时间。我们都学到了很多数据仓库方面的知识,你也会的。不久以后你将拥有你的第一个数据仓库项目的机会。现在就学习关于它的所有能学的东西和与之相关的商务智能技术吧。不必为你没有工具而担心!在你获得这个机会之前,准备好吧!

注:
1 star schema:星型模式

    数据仓库这么多年来发展的成果,我认为恐怕最重要的要算star schema了,可以说它是整个数据仓库的基石。star schema主要的思想在于将我们关心的数据和用于描述数据的属性分隔开来。实际的数据存放于Fact table中,从不同角度来描述数据的属性放到不同的dimension table中。比如,一个sales数据仓库可以这样设计,每一笔销售记录,应该会包含销售的产品,销售的客户,销售的供货商,销售的时间,销售的数量和获得的收入等。当我们要分析整个公司的所有销售记录时,毫无疑问,我们最关心的是一共销售了多少?一共获得了多少收入?然后更进一步,在某个时间段内销售了多少?来自哪家供货商的产品的销售额最大?面向哪种客户的销售额最大?哪种产品的销售额最大?等等。

    从上面我们关心的这些问题我们可以看到,对于销售的数量和金额这类具体的数字型的数据,通常是我们分析的对象,而对于像时间,产品,客户,供货商,我们希望从这些不同的角度来得到数字型数据的一个统计结果。所以,我们将数字型的数据存放在fact table中,将时间,产品,客户,供货商存放在不同的dimension table中,自然,在fact table和dimension table之间存在一个主-外键的关联,各个dimension table之间则没有关系。由此我们可以得到如下的一个star schema:
0
相关文章