技术开发 频道

商业智能入门以及Cognos产品介绍

 【IT168 技术文章】

    什么是商业智能

    沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的时候,啤酒和尿布的销量都比平时要高很多,这是一个巧合还是这个现象的背后隐藏着一定的必然因素?销售人员展开了调查,结果发现:每到周末,有孩子的家庭主妇就会让他们的丈夫去超市给孩子买足一周用的尿布,这些丈夫们必然会选择一些自己爱喝的啤酒,以便周末在欣赏橄榄球赛和篮球赛的时候可以和朋友们一起庆祝。原因找到了之后,销售部采取了措施,每到周末将超市的啤酒和尿布捆绑销售,这样,啤酒和尿布的销量又同时增加了一成。

    这是一个很经典的故事,但是却将商业智能的概念表述得很清楚,从信息学的发展历程来看,在最早期,一个企业的所有数据,政策都是存储在纸质的介质上的,随着 ERP 软件的发展和应用,这些数据转移到了数据库中并可以用程序去处理,随着数据库中存储的数据越来越多,人们就开始寻求数据当中的价值,于是商业智能便诞生了。商业智能就是寻找大量数据中的价值的过程。

    图 1. 商业智能

    商业智能会带来三种产物:分析报告,统计分析的依据和方法,数据挖掘。

    分析报告,是对已经发生的事实的描述和总结,是基于事实的,比如说:某公司的某部门 2008 年四个季度的销售额分别为 5 万元,7 万元,10 万元和 3 万元。

    统计分析,是根据以往关联数据的规律进行分析和预测,预测的前提是人为的假定,比如说将要发生的事件和历史数据存在某种关系。

    数据挖掘,则是由计算机根据一个模型自发地去分析所存储的数据,找出隐藏在数据之间的关联并分析这些关联关系对结果可能造成的影响,从而帮助人们做出决策。

    这里用电信公司的一个例子来说明上面描述的商业智能的产物:

    某电信公司通过分析存储的客户数据展示出了不同类型客户的年消费额度的表单,也展示出了各个部门投入和收入的对比图表。这些都是分析报告。

    从客户的历史月消费记录趋势图中可以得出部分高端客户的月消费额度逐步的降低,经分析得出按照这样的趋势发展下去,客户将会流失。这是统计分析。

    电信公司新推出了很多业务,但是应用情况并不理想,大部分人会认为人们不喜欢这些新推出的业务,计算机经过分析所有已申请和未申请该业务的客户数据发现,未申请业务的人群在年龄层次,学历层次上分布并不集中,但是他们的居住或者工作地都集中在某些区域,经调查发现,新业务的办理只能去营业厅,而经计算机分析出的这些地区恰好没有该电信公司的营业厅,问题找到了,电信公司立即投入资本开发了语音和网站自助服务两个门户来推广他们的新业务。这是数据挖掘。

    商业智能可以比作一个工厂,他以大量的数据为原材料,有两条生产线,一条是信息的生产线,会产出:分析报告,数据查询,在线分析处理,数据可视化等产品,另一条是知识生产线,会产出:数据挖掘。这些产品的客户就是商业决策者,所以商业智能所起的作用就是决策支持。

    商业智能相关技术介绍

    在上一节中提到了商业智能可以产出的相关产品,这些产品都会利用到一些基本的技术比如说:数据仓库,ETL 等,本小节将会介绍这些商业智能领域的相关技术。

    商业智能生产线简介   

 

图 2. 商业智能生产线  

企业数据从源数据库通过 ETL 过程流入数据仓库中,再通过数据建模将数据仓库中的数据组织成多维的立方体模型。

    数据查询可以直接对数据仓库中的数据进行查询,分析报告可以根据数据仓库或者立方体中的数据生成相应的报表和图表。 OLAP 分析是对立方体中的数据进行灵活,实时的分析。而数据可视化则可以将数据仓库或者立方体中的数据以易于理解的方式展现出来。

    数据挖掘可以利用数据仓库甚至源数据库中的数据进行分析,通过探查大量数据间隐藏的关系得出一个问题的答案。

    数据仓库简介

    数据仓库是一些面向主题的,集成的,不变的,随时间变化的数据的集合,他和事务型数据库有着明显的不同。

    事务型数据库组织数据的方法是面向事务的,是为了方便事务性的操作而设计的,比如一个企业的 ERP 系统中,员工的信息会分散在一些数据库实体中,员工的年龄等存放在员工基本信息表中,这是为了方便员工入职流程操作数据。员工的工资信息存放于员工收入表中,这是为了方便员工发工资的流程操作数据。而在数据仓库中,数据是面向主题存储的,所有员工的基本信息全部存放在一起以便于分析和查询。

    事务型数据库一般随着地域的不同而分散在不同的地方,这样可以有效地提高数据访问的速度,但数据仓库中的数据是集中的,不同地域的数据会汇总到同一个数据仓库当中。

    事务型数据库中的记录值是可以改变的而数据仓库中的数据是不可更新的,只有 ETL 的过程可以将新的数据注入到仓库中,比如一个员工 08 年 5 月份的工作部门是 M,10 月份调整到部门 N,在事务数据库中,这个员工对应的部门就是 N,而在数据仓库中会至少有三条相关记录。 08 年 5 月份时这个员工的部门是 M 而 08 年 10 月份这个员工的部门是 N,在 08 年 10 月,这个员工做了一次部门调整的动作。

    ERP 软件所使用的数据库通常就是事务型数据库而商业智能系统中所使用的数据库一般都是数据仓库。

    ETL 简介

    ETL 的全称叫作抽取(Extract),转换(Transform)和注入(Load)

 图 3ETL 简介 

  ETL 是将源数据库中的数据注入到数据仓库中的过程,其中将数据做一定的变换:

    数据格式的转换,包括小数点位数的转换,日期格式的转换等等。

    数据组织形式的转换,将在事务型数据库中存储的实体关系图转化为数据仓库中的星型模型或雪花型模型。

    OLAP 简介

    联机分析处理(OLAP)是对立方体中的数据进行在线的分析,可以包括切块分析,转换分析,切片分析等方法。数据立方体中的数据我们可以称之为量度,数据立方体的楞我们可以称之为维度。维度是可以分级的,比如时间是一个维度,第一级可以是年,第二级可以是月,第三级可以是日。我们可以查看以年为维度的信息,通过下钻操作,我们可以进一步分析以月为维度的相关信息。

    数据查询、数据可视化和分析报告

    这三个可以被看作商业智能这个工厂中信息生产线的三个产物:

    数据查询允许用户自己填充想要查询的事实和条件,然后将结果以报表或图表的形式展现,但他和 SQL 查询语言有很多相似之处,比如:必须设置要查询什么,在哪里查询,条件是什么和以什么形式展现查询结果,这是商业智能产品中最初级的应用。

    分析报告则是将数据以专业的报表或图表的格式展现给用户,用户可以设置过滤器过滤相关的数据,他由数据,数据组织形式和过滤器三个要素构成。

    数据可视化是将数据以更丰富的样式展现给用户,包括饼图,密度图,分布图,地图等。

  数据挖掘简介

    数据挖掘是商业智能工厂中知识生产线的唯一产品,他可以在用户指定的模型下,自发地去分析数据之间的关系,挖掘出隐藏在数据背后的知识,当然,前提是用户告诉计算机要在哪个范围的数据集合中分析数据,分析数据的哪些特性以及遇到一定的结果采取什么样的操作等。这就是数据挖掘的模型,常用的数据挖掘技术有:记忆基础理解,神经网络,遗传算法,集群探测等。当然,你也可以通过对数据进行简单的分类,聚合,关联设计出简单的挖掘算法

0
相关文章