Clementine中的数据挖掘流程浅析-技术开发专区

Clementine中的数据挖掘流程浅析

作者：IT168 it15xing 编辑：晓熊 2009-06-18 10:34 来源：IT168�

　　2.Clementine的数据挖掘流程举例简述

　　例如在电信行业的数据挖掘分析中，我们首先确定商业目标，也就是业务理解，因为电信业务较为复杂，不同的时期挖掘的对象也不同，根据不同的挖掘目的，选择不同的算法模型。数据挖掘技术常常用在电信的消费模式分析，市场推广分析，客户行为分析等。在数据理解阶段，我们将需要挖掘的数据从电信数据仓库中抽取出来，这些数据来自相关数据集市中的业务数据，用户资料数据，并在数据准备阶段进行补充空缺，离散化等数据预处理。下面就是最关键的建立模型阶段，以电信客户分析挖掘为例，首先将准备的数据划分为训练集和检验集，选取一定数量的客户信息，选择相关的客户属性，如客户资料、通话行为特征、消费属性、客服信息等。训练集和检验集的比例通常为7：3，用C5.0决策树模型，神经网络模型进行客户流失分析，用K-means、两步聚类、Kohonen网络模型进行客户细分。对训练集应用的各个算法模型，可以对每个客户流失的可能性打分。得出客户的流失概率，对有可能流失的并具有高价值的客户进行挽留。

　　3.Clementine中的模型输出格式

　　我们在数据挖掘项目中根据业务需要生成各种的数据挖掘模型，Clementine把这些模型都以PMML格式输出。PMML全称预言模型标记模型(Predictive Model Markup Language)，利用XML描述和存储数据挖掘模型，预测模型标记语言对各系统构建的数据挖掘模型进行规范，从而实现模型之间的无缝共享和交换。PMML通过使用标准的XML解析器对PMML进行解析，应用程序能够决定模型输入和输出的数据类型，模型详细的格式，并且按照标准的数据挖掘术语来解释模型的结果。

第1页：Clementine的数据挖掘流程标准第2页：Clementine的数据挖掘流程举例简述第3页：Clementine中的扩展功能

关注我们