技术开发 频道

应用BCU构建高性能数据仓库系统


【IT168 技术文档】近几年来,国内许多大型企业纷纷开始规划或者实施基于数据仓库技术的决策支持系统、综合管理信息系统等各类决策分析平台。其中有很多企业的数据仓库系统是基于DB2数据库引擎的,但在数据仓库项目的实施过程中,对于如何构建高性能数据仓库仍然存在误区。有时候,为了提高数据仓库的性能,把大部分投资集中于购买高性能的主机,而忽略了CPU、内存、网络带宽、磁盘存储系统之间的平衡,结果建成了一个头大身子小不合理的系统;或者是购买了高性能的主机和高性能的存储系统,而没有很好的根据数据仓库系统的特点和数据仓库软件产品的特点来配置系统,因而没有达到预期的性能。希望本文的讨论能够对大家构建一个均衡的高性能、高性价比的数据仓库系统有所帮助。

数据仓库的特点:

    数据仓库管理大量的数据;在数据仓库技术出现以前,数据的容量是以MB和GB来度量的。在数据仓库技术出现以后,原先很大的数据量就显得微不足道了,当前数据仓库的容量基本是以TB(Terabytes)来衡量,有些企业像电信行业甚至到了PB(Petabytes)级别;这是因为数据仓库要求在同一个数据库中集成整个企业的数据,包括存储从细节数据到高度汇总的混合粒度和历史的数据。因此数据量的问题是如此重要,以至于影响到数据仓库技术的各个方面。而数据仓库建立的目的是为了支持整个企业的运营决策的,因而整个企业的各个部门的大量运营分析及决策人员会大量并发的访问数据仓库。因此,数据仓库负载主要是SQL查询处理,大部分SQL操作需要扫描大量的数据,有时候一个SQL查询会关联好几个表,甚至会存在几个非常大的表做关联操作的情况,因此数据仓库系统对磁盘存储系统的I/O性能要求很高。 

    因此我们在构建数据仓库系统时要充分考虑系统的性能,做到磁盘I/O,内存、处理器、网络带宽之间的平衡来提高整个数据仓库系统的吞吐量,使数据仓库系统提供非常好的的性能。 

    而影响数据仓库系统性能最重要的因素包括,数据仓库引擎的体系结构是否支持大数据量的并发操作,系统的软硬件性能指标、特点能否很好的配合,以及保证系统能否实现线性扩展。当然数据在数据库中的存储方式、索引及应用的设计等也会在一定的范围内影响数据仓库的性能。 

    下面我们以DB2为例来介绍,怎样合理的配置数据仓库系统。
0
相关文章