6.记者:Data Warehousing(资料仓储) 和 Data Mining的关系为何?
谢邦昌:若将Data Warehousing比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「数据仓储」,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓储的目标是在组织中,在正确的时间,将正确的数据交给正确的人。
许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,数据仓储是数据库技术的一个新主题,在数据科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线交易系统OLTP(On-Line Transactional Processing)所得来的数据。
将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。综上所述,数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。
从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。
换句话说,数据仓储应先行建立完成,Data Mining才能有效率的进行,因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大数据仓储中找出有用信息的一种过程与技术」。
7.记者:您在大陆出版了两本书:您编写这样的两本书是出于什么样的考虑?此外,Clementine在两本书的应用差异?
谢邦昌:我出的两本书分别是《商务智能与数据挖掘Microsoft SQL Server应用》和《数据挖掘Clementine应用实务》这两本书都是让读者轻松能进入Data Mining的两本入门书,观念清楚,学习容易;且实务应用价值高。
Clementine为易操作的、拥有高级建模技术的数据挖掘软件, Clementine能帮助发现和预测数据中有用的关系。你可以利用 Clementine进行决策,比如说:
建立客户档案并且计算出客户保持率。
探查并预测公司中的欺诈行为。
确定和预测网站数据中有价值的访问顺序。
预测销售和增长的未来趋势。
描述直邮的回应和信用风险。
对流失进行预测,分类和分割。
详细审查自动产生的大量数据,并发现有用模式。
上述只是运用Clementine提取数据中有用信息的众多应用方式中的一部分。一般来说,只要有数据,同时数据信息正确,那么Clementine就能找到问题的答案。
谢邦昌简介:
辅仁大学统计信息学系教授,华通人商用信息有限公司高级顾问,他是数据挖掘界领军人物及世界知名统计学家。 发表过近三百篇关于统计和数据挖掘的论文。出版了近五十余本相关专著。