技术开发 频道

IBM SPSS Modeler EA 实例应用分析

  EA 基本功能

  表 5. 外部数据

姓名电话信贷风险
Mike555-1234560
Joe555-4567780

  表 6. 员工

姓名地址电话
Michael1234 5thStreet555-1234
Fred543 1st Avenue555-9876

  表 7. 客户

姓名地址储蓄
Susan1234 5thStreet$1234
Joe777 Oak Street$5

  表 8. 贷款

姓名电话地址储蓄
Susan1234 5thStreet555-1234$10,000
Joe777 Oak Street555-4567$50,000

  在这四组来自不同来源的数据里,表格上的名字就是他们的数据源名称。通过 EA 把他们导出后,新组成的存储库为下表所示。

  表 9. 汇总

$EA-ID$EA-SRC姓名电话地址信贷风险储蓄贷款
1员工Michael 555-12341234 5th St   
1外部数据Mike 555-1234 560  
2客户Joe 777 Oak Street $5 
2外部数据Joe555-4567 780 $50,000
2贷款Joseph555-4567777 Oak Street   
3员工噢乖Fred555-9876    
4客户Susan 1234 5th St $1234 
4贷款Sue 555-12341234 5th St  $10,000

  我们可以看到,Entity Analytics 系统根据共同的电话号码确定了外部数据集中的 MIKE 与员工数据集中的 Michael 是同一个人,因此给了他们相同的 $EA-ID 号— 1 号。而外部数据集中 Joe 的情况会相对复杂一些。他和客户集中名字相似但是没有其他公共信息的的 Joe 会是同一个人吗?这是我们必须引入我们的第三个数据源 ---- 贷款数据源。贷款数据源中有一个人名在为 Joseph。他的电话和外部数据元中得 JOE 一样,因此,我们给了这三条数据一样的 $EA-ID 编码。这只是个简单的应用说明,希望可以帮助大家理解。

  EA 在 Modeler 中的应用

  回到我们最初的公式流,当我们把数据输出到实体存储库的时候,其实我们的软件已经对它进行了初步的分析处理。可是我们有 850 条数据,凭借肉眼很难找出究竟哪条或者那些条数据是指向了同一个人,因此我们现在把它和 Modeler 里面其他的节点联系到一起,帮助我们更直观的看到结果。下面建了一条简单的数据流,如图所示:

IBM SPSS Modeler EA 实例应用分析
▲EA 数据流

  这条流只有简单的 4 各节点,中间的汇总节点和排序节点是这条计算流的核心。在汇总节点,我们需要做以下设置:

IBM SPSS Modeler EA 实例应用分析
▲Aggregate 节点

IBM SPSS Modeler EA 实例应用分析
▲Aggregate 节点 2

  这样设置的目的是保留 $EA-ID 这一列,去掉其他列,同事加入一个命名为 record_count 的新列。这样新的一列里就会显示这一条数据重复出现的次数。因为数据还是很多,而没有重复的数据对我们来说并不重要。所以如果可以把所有的输出数据按照重复的次数来排序,结果就会非常的直观明了。

  因此,我们需要在排序节点做如下的简单设置:

IBM SPSS Modeler EA 实例应用分析
▲Sort 节点

  我们在字段里选择了 Record_count,在顺序里选择的降序。意思是说我们所有的数据将会按照 record count 数值按从大到小的顺序进行排序。设置好后,点击确认键。

  全部设置好以后,点击表格输出节点运作。我们会得到如下表的结果:

IBM SPSS Modeler EA 实例应用分析
▲ 预览数据 2

  这样我们可以看出,着 850 条数据里一共有 11 条数据分别有一条数据和它们描述的是同一个人,因此,最后我们也只剩了 839 条记录。以第一条记录为例子。$EA-ID 501 的值在这 850 条数据里一共有两个。为了确认我们的结果,我们可以建立一个新的数据流,如下图所示: count 数值按从大到小的顺序进行排序。设置好后,点击确认键。

IBM SPSS Modeler EA 实例应用分析
▲EA 数据流 2

  在选择节点里,我们作如下的简单配置:

IBM SPSS Modeler EA 实例应用分析
▲Select 节点

  这样的配置告诉我们在所有的数据里面,我们只想挑出 EA-ID 为 501 的数据。运行得出的结果为:

IBM SPSS Modeler EA 实例应用分析
▲ 结果

  如图所示,我们可以发现 EA-ID 为 501 号的数据确实和我们从上一条数据流里显示的一样, 只有两条。这两条数据分别是原数据源里标号 REF00000501 and REF00000621 的。

0
相关文章