技术开发 频道

Clementine中的数据挖掘流程浅析

【IT168技术文档】
  Clementine是SPSS公司开发的数据挖掘工具平台。Spss clementine 数据挖掘软件能够从大量数据中,把隐藏其内的有用的信息不断地挖掘出来。这些有用的信息在商业上指的是其客户的流失率、经营的风险、企业的利润,以及服务的质量和绩效的表现。Clementine结合商业技术可以快速建立各种预测性模型,进而应用到不同的商业活动中,帮助人们改进决策过程。

  1.Clementine的数据挖掘流程标准

  Clementine的数据挖掘流程完全支持CRISP-DM标准,CRISP-DM(CRoss-Industry Standard Process for Data Mining)简单地理解就是数据挖掘方法和过程的标准。CRISP-DM评述了一个数据挖掘生命周期,在这个项目周期内,各自的任务以及这些任务之间的关系。所有数据挖掘任务之间关系的存在主要依赖的是数据和这些数据背后的目的、背景和兴趣。

  CRISP-DM大体把数据挖掘分成六个阶段。第一个阶段是业务理解 (Business Understanding)阶段,这个阶段主要是从业务的角度和主题出发,将业务问题逐步转化为数据挖掘问题的定义和初步的计划。第二个阶段是数据理解 (Data Understanding)阶段,这个阶段主要做一些初始的数据收集工作,判别数据的质量问题。第三个阶段是数据准备 (Data Preparation)阶段,这个阶段也就是我们常说的数据预处理阶段,就是把未处理的数据集转化为模型算法可以处理的规范数据集,包括常用的如补充空缺,离散化等方法。第四个阶段是建模(Modeling)阶段,这个阶段通过选择和应用不同的算法模型技术,通过调整各个算法模型的参数来解决指定的数据挖掘问题。第五个阶段是评估(Evaluation)阶段,这个阶段主要是检查并验证已经建立好的数据挖掘模型,确保模型能够完成预先的业务目标。第六个阶段是部署 (Deployment)阶段,通过部署阶段可以产生简单的报告,并和其他应用系统能够整合起来。

  Clementine根据CRISP-DM标准中提供了数据流管理功能和项目管理功能,数据流管理区域可以有效管理当前工作环境,从数据流、输出结果和模型三个角度进行管理数据。如图1所示
        

  图1

0
相关文章