技术开发 频道

数据仓库如何筑起信息管理大厦?

做好业务规划

    对于用户来说,在实现信息为企业所用的过程中如果能有一个比较长期的规划,并按照这一规划逐步实施,无疑是一种最有效的方式。然而,要想做到这一点却并不容易,庞大的业务系统让很多企业只能从某些业务需求开始。

    人民医院按照自己对数据管理的规划有步骤地将三大数据主体通过数据仓库有效整合,并实现了商业智能。然而,对于很多大型行业用户或是集团型企业来说,庞大的业务系统使其无法一时做好全盘规划,它们往往都是从某一业务需求开始实现数据分析的。Sybase软件(中国)有限公司技术总监卢东明介绍说:“我们的用户四川移动,它们就通过商业智能来分析用户对彩信以及WLAN的使用习惯,指导自己的业务营销,并实现了更精准的投放。” 事实上,这就是一种从业务需求点开始的数据分析。

    选择这种部署方式其实很容易理解,这些行业用户的信息化都做得比较早也比较深入,当某一业务系统有了对数据分析的需求时,企业就开始从这一业务需求或者说是这一业务系统开始做规划,选择商业智能工具,构建数据仓库,这是一种自下而上的构建方式。“当他们发现另一个业务系统也存在对数据分析的需求时,又要重新按照这一步骤进行规划,而且在通过数据仓库整合数据的过程中还会出现一些新问题——之前那个数据库中的数据还要再一次进行重组。”王祥表示,“在通过这种方式实现了几个业务系统数据的分析之后,企业就会发现,自己必须要对数据管理有一个全盘的规划,虽然现在还不可能一蹴而就将所有业务数据都整合到数据仓库。”

    对于泰康人寿这样的保险公司来说,在粗放型的市场阶段,追求的是保险销售的覆盖面,但在今天,当市场在一定程度上实现了饱和之后,挖掘高端客户的深层价值就显得更为重要。“高端客户显然不希望时不时地就接到推销保险的电话,他们需要的是一种更自主的服务。”泰康人寿相关负责人说,“这就给我们提出了很高的要求,如何满足用户整个生命周期的需求,比如读书、成家、生小孩到最后退休?如何从以个人为主体发展到以家庭为单位?这些都需要数据分析作为支撑。”

    “保险销售人员与用户接触的时间往往只有短短的两三分钟,系统要能够在这一时间范围内将用户的所有信息都展现出来,包括用户的消费习惯、家庭成员等,并通过交易记录分析出用户处在哪个时期,可能会需要什么样的产品等。” 泰康人寿的这位负责人表示,“之前,我们也经历了从单一系统做数据分析的方式,但随着市场竞争环境的改变,深层次、跨系统的信息协作要求我们对数据的分析不可能是单一的,必须要对多个系统的数据进行综合分析,这就要求我们必须要有一个全盘的规划。”

    在王祥看来,对于很多大型用户来说,这可能是一个必经的阶段,因为业务需求本就是信息化的根本动力,能够让业务部门真正看到数据管理给他们带来的好处,才能更大程度地推进数据仓库和商业智能的应用。“但需要强调的是,企业必须要对未来有一个明确的数据管理目标。发展到今天,多数企业都已经经历了这个阶段,对数据仓库及商业智能建设也有了全盘的规划。” 王祥表示。

    同时,也正是因为业务需求是企业信息化建设的根本动力,企业在构建数据仓库的过程中,一定明确数据仓库系统所能解决的业务问题,也只有明确的业务需求才能让建设人员对与数据仓库所需要达到的目标有一个清楚的认识。

    此外,数据仓库建设还应该被纳入到企业的战略规划中。也就是说,当企业管理者在考虑企业的战略目标时,同时就应该考虑怎样利用数据仓库来进行日常的经营分析,怎样利用数据仓库来追踪影响战略目标的关键业绩指标?怎样利用数据仓库系统来辅助企业决策?只有将数据仓库变为日常决策和经营的一部分,才是真正实现商业智能。

    数据质量是关键

    数据仓库不是数据的仓库,更不是数据的垃圾仓库,数据仓库建设成功的关键在于高质量的数据。要想通过数据仓库实现异构数据源的有效集成,并建立数据应用基础以支持决策分析,首先就要确保数据的完备以及高质量。此外,在选择工具的同时,选择一个合适的技术框架也至关重要。

    数据无疑是数据仓库应用的关键,数据质量的好坏会直接影响到数据仓库建设的成败。比如,对于电信运营商来说,客户的背景资料,如性别、年龄、家庭关系等对于客户需求的相关分析以及市场营销都非常重要,但在大部分国内电信运营商的数据库里,性别不详的用户比性别为男或女的用户都多。“国外的电信运营商都很注重对于客户家庭成员的相关分析,以找到新的业务需求点,如果这些数据信息都不完善,根本就不可能进行类似的分析。”王祥表示。

    除了数据信息是否完备外,数据标准是否统一也非常重要,因为其是保障数据质量的重要前提。“在医院里对于性别的描述,可能在有的业务系统的数据库中用的是M和F,有的是1和0,还有的可能就是男和女,都不统一。”据刘帆介绍说,“通过数据清洗将这些命名统一后,才能支撑有效的分析。”

    事实上,为了确保数据的质量,在很多行业都定义了统一的数据标准,其中也包括很多跨行业的数据标准,这些数据标准对于推动数据仓库以及商业智能的应用发展起到了至关重要的作用。据王祥介绍,比如,在保险行业、国际贸易领域、化学化工类行业等都会有自己的行业数据标准,同时这些行业还都要去遵循诸如国际港口城市标准化代码之类的一系列标准。

    当然,数据问题不仅仅是数据质量的问题,对于金融、电信等行业来说,数据过载的问题也应该被给予更高的重视。“这些行业用户的业务系统本就是海量的数据系统,而数据仓库系统通常都要存储比业务系统多得多的历史数据,而且,数据在进入到数据仓库后,为了提高展现和分析的效率,会生成部分冗余和汇总的数据,30%的膨胀率对于数据仓库系统而言是很平常的。”卢东明就强调,因此,企业要把那些需要用来分析的数据加载到数据仓库中,这对于用户来说是一个非常重要的课题,否则数据仓库就会变成垃圾仓库。

    此外,很多用户在构建数据仓库的过程中,把很多精力都放在了ETL、OLAP等工具的选择上了。这些工具固然是成功建设数据仓库的基础,但有一个重要前提是,要在明确各个阶段的技术框架之后再来选择合适的工具。选择一个合适的技术框架,包括合适的逻辑数据模型和物理数据模型; 合适的数据抽取策略,到底是先转换后加载,边转换、边加载,还是先加载后转换; 合适的数据展现策略,ROLAP、MOLAP还是HOLAP,都至关重要。从某种意义上说,选择了一个合适的技术框架,从技术层面而言,数据仓库已成功了大半。

    什么是数据仓库?

    数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

    ● 面向主题: 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

    ● 集成的: 数据仓库中的数据是在对原有分散的数据库中数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

    ● 相对稳定: 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期地加载和刷新。

    ● 反映历史变化: 数据仓库中的数据通常会包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

    早在2004年,上海证券交易所就建设了TB级的数据仓库。
 

0
相关文章