【IT168 技术】IBM SPSS Modeler Entity Analytics (EA) 是在 IBM SPSS Modeler 14.2 预测分析的基础上添加到 IBM SPSS Modeler 15.0 的全新功能。Entity Analytics 和传统的 Modeler 相比,对数据预测有着全新的维度。IBM SPSS Modeler 预测的重点在于根据过去的数据预测未来的行为。而 Entity Analytics 重点在于通过解析已有的数据,在不同的已有数据源中,解析自身的身份冲突,从而来提高当前数据的连贯性和一致性。
功能介绍
EA 基本配置
如果我们有下面的两条数据,来自美国某银行的数据 A,和来自另一银行的数据 B:
表 1. 数据 A
| 记录编码 | 姓名 | 地址 | 税参考 | 驾驶执照 | 信用卡 |
| 70001 | Jon Smith | 123 Main Stree | 555-00-1111 | 0001133107 | 10229127 |
表 2. 数据 B
| 记录编码 | 姓名 | 出生日期 | 电话 | 信用卡 | 电子邮件 | IP地址 |
| 9103 | JOHNATHAN Smith | 06/17/1934 | 555-1212 | 10229128 | jls@mail.com | 9.50.18.77 |
单纯的从这两条数据看,我们发现数据 A 和数据 B 除了名字和信用卡号略为相似以外,没有任何一样甚至相似的地方。数据 A 重点统计了一个用户的住址,税参考和驾驶执照。而数据 B 重点统计了一个用户的出生日期,点好号码,电子邮件和 IP 地址。只通过这样两条来自不同银行的数据,我们没有办法定义数据 A 和数据 B 所描述的用户之间有任何的关系。
随着我们的进一步的扩充我们的数据源,我们获得了来自摩根银行的第三条数据 :
表 3. 数据 C
| 记录编码 | 姓名 | 电话 | 驾驶执照 | 信用卡 |
| 6251 | Jon Smith | 555-1212 | 0001133107 | 102291328 |
这第三条数据虽然只简单地包括了姓名,电话,驾驶证号码,信用卡号码这么 4 个部分,但是它强而有效的把数据 A 和数据 B 联系到了一起。数据 A 和数据 C 的姓名都是 JOHN SMITH, 驾驶证号码都是 0001133107; 数据 B 和数据 C 的电话号码都是 555-1212,信用卡号码都是 102291328. 因此,我们可以推断,实际上数据 A 和数据 B 其实描述的是同一个人。如果将来我们发现数据 A 里的 john smith 有诈骗嫌疑,我们就可以迅速的推断,他也可能在花旗银行和摩根银行实施同样的行为。这早期的推断会对后期的预防有非常重要的影响。
如果只有这样简单的一两条数据,我们可以随意的眼观就发现数据之间的相关性。但是当你的数据成千上万,当你的数据来自几百种不同的数据来源,当你的数据里面夹在了恶意的假数据时,人力的检测就会微不足道至完全没有用武之地。而使用我们 IBM SPSS Modeler 15 的 Entity Analytics 新功能,我们用不同的输入节点把来自各个数据源的数据收集到一起,然后通过 Entity Analytics 的输出接点全部插入到我们 Entity Analytics 的专属数据库中。在每次有了新数据来源的时候,我们通过 Entity Analytics 的处理节点把它和所有数据库里的已知数据进行不同设置的对比,从而判定他们是不是有相关关系,甚至是推断有怎样的相关关系。除此以外, Entity analytics 还可以帮助用户把信息进行有效的合并。比如之前我的数据,在合并后就会有如下这些数据:
表 4. 数据 D
| 姓名 | 地址 | 税参考 | 驾驶执照 | 信用卡 | 出生日期 | 电话 | 信用卡2 | 电子邮箱 | IP地址 |
| Jon Smith | 123 Main Street | 555-00-1111 | 0001133107 | 10229127 | 06/17/1934 | 555-1212 | 10229128 | jls@mail.com | 9.50.18.77 |
这样,我们对用户 Jon Smith 的资料掌握就更全面了,全面的资料库会对后期的营销策略等都产生强大的积极影响。
关于产品的详细资料我们可以通过帮助文档获取,这里就不多提了。今天,我们重点想和大家讲讲它在商业分析中具体的应用案例。
首先来介绍一下我们的数据源,这个数据包括 850 行,28 列,是由我们根据美国信用卡机构的数据组件模式自行创造的数据。在这个数据里,有很小一部分的人可以通过传统匹配来进行识别。在软件设置为传统匹配的模式下,被判定为同一个人的数据会自动标示成同一个 EA-ID。
简单的数据预览截屏如下:

▲ 数据预览截屏
预览只显示十条数据,但是所有的列都会被显示。如图所示,我们的数据源包括,编号,名,中间名,姓,出生日期,死亡日期,性别,家庭住址,城市,国家,邮编,电话,邮箱,网页,社会安全号码,社保号后四位,驾照号码,和护照号码等等美国常用的资料信息。
这里虽然只是一个数据源,但是在实际应用中,我们可以把不同的数据源通过 MODELER 的结合源点联系到一起以后再进行分析处理。
现在,我们就发现重复用户这个具体案例来进行详细的讲解。
对于初次使用者来说,第一步应该做的就是创建一个专们使用的实体数据库。
首先,放一个 EA (Entity Analytics) 的输出结点在屏幕上。如下图所示:

▲EA 导出节点
双击点开该节点,得到下图所示的跳出窗口:

▲EA 导出对话框