技术开发 频道

Clementine中的数据挖掘流程浅析

【IT168技术文档】
  Clementine是SPSS公司开发的数据挖掘工具平台。Spss clementine 数据挖掘软件能够从大量数据中,把隐藏其内的有用的信息不断地挖掘出来。这些有用的信息在商业上指的是其客户的流失率、经营的风险、企业的利润,以及服务的质量和绩效的表现。Clementine结合商业技术可以快速建立各种预测性模型,进而应用到不同的商业活动中,帮助人们改进决策过程。

  1.Clementine的数据挖掘流程标准

  Clementine的数据挖掘流程完全支持CRISP-DM标准,CRISP-DM(CRoss-Industry Standard Process for Data Mining)简单地理解就是数据挖掘方法和过程的标准。CRISP-DM评述了一个数据挖掘生命周期,在这个项目周期内,各自的任务以及这些任务之间的关系。所有数据挖掘任务之间关系的存在主要依赖的是数据和这些数据背后的目的、背景和兴趣。

  CRISP-DM大体把数据挖掘分成六个阶段。第一个阶段是业务理解 (Business Understanding)阶段,这个阶段主要是从业务的角度和主题出发,将业务问题逐步转化为数据挖掘问题的定义和初步的计划。第二个阶段是数据理解 (Data Understanding)阶段,这个阶段主要做一些初始的数据收集工作,判别数据的质量问题。第三个阶段是数据准备 (Data Preparation)阶段,这个阶段也就是我们常说的数据预处理阶段,就是把未处理的数据集转化为模型算法可以处理的规范数据集,包括常用的如补充空缺,离散化等方法。第四个阶段是建模(Modeling)阶段,这个阶段通过选择和应用不同的算法模型技术,通过调整各个算法模型的参数来解决指定的数据挖掘问题。第五个阶段是评估(Evaluation)阶段,这个阶段主要是检查并验证已经建立好的数据挖掘模型,确保模型能够完成预先的业务目标。第六个阶段是部署 (Deployment)阶段,通过部署阶段可以产生简单的报告,并和其他应用系统能够整合起来。

  Clementine根据CRISP-DM标准中提供了数据流管理功能和项目管理功能,数据流管理区域可以有效管理当前工作环境,从数据流、输出结果和模型三个角度进行管理数据。如图1所示
        

  图1

  2.Clementine的数据挖掘流程举例简述

  例如在电信行业的数据挖掘分析中,我们首先确定商业目标,也就是业务理解,因为电信业务较为复杂,不同的时期挖掘的对象也不同,根据不同的挖掘目的,选择不同的算法模型。数据挖掘技术常常用在电信的消费模式分析,市场推广分析,客户行为分析等。在数据理解阶段,我们将需要挖掘的数据从电信数据仓库中抽取出来,这些数据来自相关数据集市中的业务数据,用户资料数据,并在数据准备阶段进行补充空缺,离散化等数据预处理。下面就是最关键的建立模型阶段,以电信客户分析挖掘为例,首先将准备的数据划分为训练集和检验集,选取一定数量的客户信息,选择相关的客户属性,如客户资料、通话行为特征、消费属性、客服信息等。训练集和检验集的比例通常为7:3, 用C5.0决策树模型,神经网络模型进行客户流失分析,用K-means、两步聚类、Kohonen网络模型进行客户细分。对训练集应用的各个算法模型,可以对每个客户流失的可能性打分。得出客户的流失概率,对有可能流失的并具有高价值的客户进行挽留。

  3.Clementine中的模型输出格式

  我们在数据挖掘项目中根据业务需要生成各种的数据挖掘模型,Clementine把这些模型都以PMML格式输出。PMML全称预言模型标记模型(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,预测模型标记语言对各系统构建的数据挖掘模型进行规范,从而实现模型之间的无缝共享和交换。PMML通过使用标准的XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型,模型详细的格式,并且按照标准的数据挖掘术语来解释模型的结果。

  4.Clementine中的扩展功能

  1.Clementine提供了CEMI(Clementine External Module Interface)技术,可以把其它模型、数据准备、结果展示等功能集成到Clementine中。

  Clementine可以把数据挖掘模型或者整个数据挖掘流程导出并嵌入应用系统,例如我们可以将Clementine生成的数据挖掘模型导入到微软sql server BI架构中去,首先从SPSS Clementine导出PMML模型,然后使用DMX语句“Create Mining Model From PMML ”将PMML模型加入sql server BI架构中的SSAS。反之我们也可以将其他BI架构中的数据挖掘算法导入到SPSS Clementine中去,在Clementine菜单栏选Tools -> Helper Applications。在Clementine菜单栏选Tools -> Helper Applications。如图2所示

  

                                     图2

  2.Clementine有极其开放的数据库接口。支持几乎全部的关系型数据库,以及各种形式的源数据文件,如变量文件、固定文件spss文件、sas文件等。如图3所示。


                                     图3

  5.总结

  本文通过以上方面对Clementine数据挖掘流程的简单描述,使我们对Clementine解决实际业务中的数据挖掘问题有了初步的理解,Clementine将会在实际应用过程中有更广泛的应用并发挥越来越大的作用。

0
相关文章