技术开发 频道

IBM SPSS Modeler EA 实例应用分析

  【IT168 技术】IBM SPSS Modeler Entity Analytics (EA) 是在 IBM SPSS Modeler 14.2 预测分析的基础上添加到 IBM SPSS Modeler 15.0 的全新功能。Entity Analytics 和传统的 Modeler 相比,对数据预测有着全新的维度。IBM SPSS Modeler 预测的重点在于根据过去的数据预测未来的行为。而 Entity Analytics 重点在于通过解析已有的数据,在不同的已有数据源中,解析自身的身份冲突,从而来提高当前数据的连贯性和一致性。

  功能介绍

  EA 基本配置

  如果我们有下面的两条数据,来自美国某银行的数据 A,和来自另一银行的数据 B:

  表 1. 数据 A

记录编码姓名地址税参考驾驶执照信用卡
70001Jon Smith123 Main Stree555-00-1111000113310710229127

  表 2. 数据 B

记录编码姓名出生日期电话信用卡电子邮件IP地址
9103JOHNATHAN Smith06/17/1934555-121210229128jls@mail.com9.50.18.77

  单纯的从这两条数据看,我们发现数据 A 和数据 B 除了名字和信用卡号略为相似以外,没有任何一样甚至相似的地方。数据 A 重点统计了一个用户的住址,税参考和驾驶执照。而数据 B 重点统计了一个用户的出生日期,点好号码,电子邮件和 IP 地址。只通过这样两条来自不同银行的数据,我们没有办法定义数据 A 和数据 B 所描述的用户之间有任何的关系。

  随着我们的进一步的扩充我们的数据源,我们获得了来自摩根银行的第三条数据 :

  表 3. 数据 C

记录编码姓名电话驾驶执照信用卡
6251Jon Smith555-12120001133107102291328

  这第三条数据虽然只简单地包括了姓名,电话,驾驶证号码,信用卡号码这么 4 个部分,但是它强而有效的把数据 A 和数据 B 联系到了一起。数据 A 和数据 C 的姓名都是 JOHN SMITH, 驾驶证号码都是 0001133107; 数据 B 和数据 C 的电话号码都是 555-1212,信用卡号码都是 102291328. 因此,我们可以推断,实际上数据 A 和数据 B 其实描述的是同一个人。如果将来我们发现数据 A 里的 john smith 有诈骗嫌疑,我们就可以迅速的推断,他也可能在花旗银行和摩根银行实施同样的行为。这早期的推断会对后期的预防有非常重要的影响。

  如果只有这样简单的一两条数据,我们可以随意的眼观就发现数据之间的相关性。但是当你的数据成千上万,当你的数据来自几百种不同的数据来源,当你的数据里面夹在了恶意的假数据时,人力的检测就会微不足道至完全没有用武之地。而使用我们 IBM SPSS Modeler 15 的 Entity Analytics 新功能,我们用不同的输入节点把来自各个数据源的数据收集到一起,然后通过 Entity Analytics 的输出接点全部插入到我们 Entity Analytics 的专属数据库中。在每次有了新数据来源的时候,我们通过 Entity Analytics 的处理节点把它和所有数据库里的已知数据进行不同设置的对比,从而判定他们是不是有相关关系,甚至是推断有怎样的相关关系。除此以外, Entity analytics 还可以帮助用户把信息进行有效的合并。比如之前我的数据,在合并后就会有如下这些数据:

  表 4. 数据 D

姓名地址税参考驾驶执照信用卡出生日期电话信用卡2电子邮箱IP地址
Jon Smith123 Main Street555-00-111100011331071022912706/17/1934555-121210229128jls@mail.com 9.50.18.77

  这样,我们对用户 Jon Smith 的资料掌握就更全面了,全面的资料库会对后期的营销策略等都产生强大的积极影响。

  关于产品的详细资料我们可以通过帮助文档获取,这里就不多提了。今天,我们重点想和大家讲讲它在商业分析中具体的应用案例。

  首先来介绍一下我们的数据源,这个数据包括 850 行,28 列,是由我们根据美国信用卡机构的数据组件模式自行创造的数据。在这个数据里,有很小一部分的人可以通过传统匹配来进行识别。在软件设置为传统匹配的模式下,被判定为同一个人的数据会自动标示成同一个 EA-ID。

  简单的数据预览截屏如下:

IBM SPSS Modeler EA 实例应用分析
▲ 数据预览截屏

  预览只显示十条数据,但是所有的列都会被显示。如图所示,我们的数据源包括,编号,名,中间名,姓,出生日期,死亡日期,性别,家庭住址,城市,国家,邮编,电话,邮箱,网页,社会安全号码,社保号后四位,驾照号码,和护照号码等等美国常用的资料信息。

  这里虽然只是一个数据源,但是在实际应用中,我们可以把不同的数据源通过 MODELER 的结合源点联系到一起以后再进行分析处理。

  现在,我们就发现重复用户这个具体案例来进行详细的讲解。

  对于初次使用者来说,第一步应该做的就是创建一个专们使用的实体数据库。

  首先,放一个 EA (Entity Analytics) 的输出结点在屏幕上。如下图所示:

IBM SPSS Modeler EA 实例应用分析
▲EA 导出节点

  双击点开该节点,得到下图所示的跳出窗口:

IBM SPSS Modeler EA 实例应用分析
▲EA 导出对话框

0
相关文章