IBM SPSS Modeler EA 实例应用分析-技术开发专区

IBM SPSS Modeler EA 实例应用分析

作者：白杨孙媛郑浩编辑：李焕珠 2013-09-22 09:16 来源：develop

　　【IT168 技术】IBM SPSS Modeler Entity Analytics (EA) 是在 IBM SPSS Modeler 14.2 预测分析的基础上添加到 IBM SPSS Modeler 15.0 的全新功能。Entity Analytics 和传统的 Modeler 相比，对数据预测有着全新的维度。IBM SPSS Modeler 预测的重点在于根据过去的数据预测未来的行为。而 Entity Analytics 重点在于通过解析已有的数据，在不同的已有数据源中，解析自身的身份冲突，从而来提高当前数据的连贯性和一致性。

　　功能介绍

　　EA 基本配置

　　如果我们有下面的两条数据，来自美国某银行的数据 A，和来自另一银行的数据 B：

　　表 1. 数据 A

记录编码	姓名	地址	税参考	驾驶执照	信用卡
70001	Jon Smith	123 Main Stree	555-00-1111	0001133107	10229127

　　表 2. 数据 B

记录编码	姓名	出生日期	电话	信用卡	电子邮件	IP地址
9103	JOHNATHAN Smith	06/17/1934	555-1212	10229128	jls@mail.com	9.50.18.77

　　单纯的从这两条数据看，我们发现数据 A 和数据 B 除了名字和信用卡号略为相似以外，没有任何一样甚至相似的地方。数据 A 重点统计了一个用户的住址，税参考和驾驶执照。而数据 B 重点统计了一个用户的出生日期，点好号码，电子邮件和 IP 地址。只通过这样两条来自不同银行的数据，我们没有办法定义数据 A 和数据 B 所描述的用户之间有任何的关系。

　　随着我们的进一步的扩充我们的数据源，我们获得了来自摩根银行的第三条数据 :

　　表 3. 数据 C

记录编码	姓名	电话	驾驶执照	信用卡
6251	Jon Smith	555-1212	0001133107	102291328

　　这第三条数据虽然只简单地包括了姓名，电话，驾驶证号码，信用卡号码这么 4 个部分，但是它强而有效的把数据 A 和数据 B 联系到了一起。数据 A 和数据 C 的姓名都是 JOHN SMITH，驾驶证号码都是 0001133107; 数据 B 和数据 C 的电话号码都是 555-1212，信用卡号码都是 102291328. 因此，我们可以推断，实际上数据 A 和数据 B 其实描述的是同一个人。如果将来我们发现数据 A 里的 john smith 有诈骗嫌疑，我们就可以迅速的推断，他也可能在花旗银行和摩根银行实施同样的行为。这早期的推断会对后期的预防有非常重要的影响。

　　如果只有这样简单的一两条数据，我们可以随意的眼观就发现数据之间的相关性。但是当你的数据成千上万，当你的数据来自几百种不同的数据来源，当你的数据里面夹在了恶意的假数据时，人力的检测就会微不足道至完全没有用武之地。而使用我们 IBM SPSS Modeler 15 的 Entity Analytics 新功能，我们用不同的输入节点把来自各个数据源的数据收集到一起，然后通过 Entity Analytics 的输出接点全部插入到我们 Entity Analytics 的专属数据库中。在每次有了新数据来源的时候，我们通过 Entity Analytics 的处理节点把它和所有数据库里的已知数据进行不同设置的对比，从而判定他们是不是有相关关系，甚至是推断有怎样的相关关系。除此以外， Entity analytics 还可以帮助用户把信息进行有效的合并。比如之前我的数据，在合并后就会有如下这些数据：

　　表 4. 数据 D

姓名	地址	税参考	驾驶执照	信用卡	出生日期	电话	信用卡2	电子邮箱	IP地址
Jon Smith	123 Main Street	555-00-1111	0001133107	10229127	06/17/1934	555-1212	10229128	jls@mail.com	9.50.18.77

　　这样，我们对用户 Jon Smith 的资料掌握就更全面了，全面的资料库会对后期的营销策略等都产生强大的积极影响。

　　关于产品的详细资料我们可以通过帮助文档获取，这里就不多提了。今天，我们重点想和大家讲讲它在商业分析中具体的应用案例。

　　首先来介绍一下我们的数据源，这个数据包括 850 行，28 列，是由我们根据美国信用卡机构的数据组件模式自行创造的数据。在这个数据里，有很小一部分的人可以通过传统匹配来进行识别。在软件设置为传统匹配的模式下，被判定为同一个人的数据会自动标示成同一个 EA-ID。

　　简单的数据预览截屏如下：

IBM SPSS Modeler EA 实例应用分析
▲ 数据预览截屏

　　预览只显示十条数据，但是所有的列都会被显示。如图所示，我们的数据源包括，编号，名，中间名，姓，出生日期，死亡日期，性别，家庭住址，城市，国家，邮编，电话，邮箱，网页，社会安全号码，社保号后四位，驾照号码，和护照号码等等美国常用的资料信息。

　　这里虽然只是一个数据源，但是在实际应用中，我们可以把不同的数据源通过 MODELER 的结合源点联系到一起以后再进行分析处理。

　　现在，我们就发现重复用户这个具体案例来进行详细的讲解。

　　对于初次使用者来说，第一步应该做的就是创建一个专们使用的实体数据库。

　　首先，放一个 EA (Entity Analytics) 的输出结点在屏幕上。如下图所示：

IBM SPSS Modeler EA 实例应用分析
▲EA 导出节点

　　双击点开该节点，得到下图所示的跳出窗口：

IBM SPSS Modeler EA 实例应用分析
▲EA 导出对话框

第1页：EA 基本配置（一）第2页：EA 基本配置（二）第3页：EA 基本配置（三）第4页：EA 基本功能及其应用第5页：EA 在 Modeler 中的应用

关注我们