技术开发 频道

Clementine中的数据挖掘流程浅析

  2.Clementine的数据挖掘流程举例简述

  例如在电信行业的数据挖掘分析中,我们首先确定商业目标,也就是业务理解,因为电信业务较为复杂,不同的时期挖掘的对象也不同,根据不同的挖掘目的,选择不同的算法模型。数据挖掘技术常常用在电信的消费模式分析,市场推广分析,客户行为分析等。在数据理解阶段,我们将需要挖掘的数据从电信数据仓库中抽取出来,这些数据来自相关数据集市中的业务数据,用户资料数据,并在数据准备阶段进行补充空缺,离散化等数据预处理。下面就是最关键的建立模型阶段,以电信客户分析挖掘为例,首先将准备的数据划分为训练集和检验集,选取一定数量的客户信息,选择相关的客户属性,如客户资料、通话行为特征、消费属性、客服信息等。训练集和检验集的比例通常为7:3, 用C5.0决策树模型,神经网络模型进行客户流失分析,用K-means、两步聚类、Kohonen网络模型进行客户细分。对训练集应用的各个算法模型,可以对每个客户流失的可能性打分。得出客户的流失概率,对有可能流失的并具有高价值的客户进行挽留。

  3.Clementine中的模型输出格式

  我们在数据挖掘项目中根据业务需要生成各种的数据挖掘模型,Clementine把这些模型都以PMML格式输出。PMML全称预言模型标记模型(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,预测模型标记语言对各系统构建的数据挖掘模型进行规范,从而实现模型之间的无缝共享和交换。PMML通过使用标准的XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型,模型详细的格式,并且按照标准的数据挖掘术语来解释模型的结果。

0
相关文章