EA 基本功能
表 5. 外部数据
| 姓名 | 电话 | 信贷风险 |
| Mike | 555-1234 | 560 |
| Joe | 555-4567 | 780 |
表 6. 员工
| 姓名 | 地址 | 电话 |
| Michael | 1234 5thStreet | 555-1234 |
| Fred | 543 1st Avenue | 555-9876 |
表 7. 客户
| 姓名 | 地址 | 储蓄 |
| Susan | 1234 5thStreet | $1234 |
| Joe | 777 Oak Street | $5 |
表 8. 贷款
| 姓名 | 电话 | 地址 | 储蓄 |
| Susan | 1234 5thStreet | 555-1234 | $10,000 |
| Joe | 777 Oak Street | 555-4567 | $50,000 |
在这四组来自不同来源的数据里,表格上的名字就是他们的数据源名称。通过 EA 把他们导出后,新组成的存储库为下表所示。
表 9. 汇总
| $EA-ID | $EA-SRC | 姓名 | 电话 | 地址 | 信贷风险 | 储蓄 | 贷款 |
| 1 | 员工 | Michael | 555-1234 | 1234 5th St | |||
| 1 | 外部数据 | Mike | 555-1234 | 560 | |||
| 2 | 客户 | Joe | 777 Oak Street | $5 | |||
| 2 | 外部数据 | Joe | 555-4567 | 780 | $50,000 | ||
| 2 | 贷款 | Joseph | 555-4567 | 777 Oak Street | |||
| 3 | 员工噢乖 | Fred | 555-9876 | ||||
| 4 | 客户 | Susan | 1234 5th St | $1234 | |||
| 4 | 贷款 | Sue | 555-1234 | 1234 5th St | $10,000 |
我们可以看到,Entity Analytics 系统根据共同的电话号码确定了外部数据集中的 MIKE 与员工数据集中的 Michael 是同一个人,因此给了他们相同的 $EA-ID 号— 1 号。而外部数据集中 Joe 的情况会相对复杂一些。他和客户集中名字相似但是没有其他公共信息的的 Joe 会是同一个人吗?这是我们必须引入我们的第三个数据源 ---- 贷款数据源。贷款数据源中有一个人名在为 Joseph。他的电话和外部数据元中得 JOE 一样,因此,我们给了这三条数据一样的 $EA-ID 编码。这只是个简单的应用说明,希望可以帮助大家理解。
EA 在 Modeler 中的应用
回到我们最初的公式流,当我们把数据输出到实体存储库的时候,其实我们的软件已经对它进行了初步的分析处理。可是我们有 850 条数据,凭借肉眼很难找出究竟哪条或者那些条数据是指向了同一个人,因此我们现在把它和 Modeler 里面其他的节点联系到一起,帮助我们更直观的看到结果。下面建了一条简单的数据流,如图所示:
这条流只有简单的 4 各节点,中间的汇总节点和排序节点是这条计算流的核心。在汇总节点,我们需要做以下设置:

▲Aggregate 节点
这样设置的目的是保留 $EA-ID 这一列,去掉其他列,同事加入一个命名为 record_count 的新列。这样新的一列里就会显示这一条数据重复出现的次数。因为数据还是很多,而没有重复的数据对我们来说并不重要。所以如果可以把所有的输出数据按照重复的次数来排序,结果就会非常的直观明了。
因此,我们需要在排序节点做如下的简单设置:

▲Sort 节点
我们在字段里选择了 Record_count,在顺序里选择的降序。意思是说我们所有的数据将会按照 record count 数值按从大到小的顺序进行排序。设置好后,点击确认键。
全部设置好以后,点击表格输出节点运作。我们会得到如下表的结果:

▲ 预览数据 2
这样我们可以看出,着 850 条数据里一共有 11 条数据分别有一条数据和它们描述的是同一个人,因此,最后我们也只剩了 839 条记录。以第一条记录为例子。$EA-ID 501 的值在这 850 条数据里一共有两个。为了确认我们的结果,我们可以建立一个新的数据流,如下图所示: count 数值按从大到小的顺序进行排序。设置好后,点击确认键。
在选择节点里,我们作如下的简单配置:

▲Select 节点
这样的配置告诉我们在所有的数据里面,我们只想挑出 EA-ID 为 501 的数据。运行得出的结果为:

▲ 结果
如图所示,我们可以发现 EA-ID 为 501 号的数据确实和我们从上一条数据流里显示的一样, 只有两条。这两条数据分别是原数据源里标号 REF00000501 and REF00000621 的。