为了更进一步的验证我们的结果,我们可以建立一个如下的数据流:
我们用文本数据源读入我们的初始数据,然后使用一个选择节点选出 REF00000501 and REF00000621 所对应的,下来我们会使用一个过滤节点,过掉一些没有什么意义的项目,最后,我们用一个表格输出结点显示出被认为同一个人的两条数据的详细资料。
选择节点的设置如下:

▲Select 节点 2
输出结果为:

▲ 结果 2
我们可以看出,这两条数据虽然编号不一样,但是生日,性别,家庭住址,城市等完全一样。 姓和名非常相似。名字一个是 Ruth 一个是 Ruthor,可以理解为同样的名字两种不同的叫法。 而中间名字,一个是 Carol,一个是 C, 我们可以理解为缩写,姓是完全一样的。这个结果再次的论证,Entity Analytics 实时分析软件确实根据我们的定义找出了它认为是同一个客户的两条不同数据。
那么,我们到底是怎么定义什么样的两条数据应该是同一个人呢?具体的条件设置当然是软件后端的实现秘密,不能在这里告诉大家啦。但是作为用户,我们可以做一些选择来达到不同的结果。具体设置会在实体数据库里选择,我在这里也和大家简短的介绍一下。
前面我们介绍过如何创建一个实体数据库,在创建过程中,我们可以通过任何一个 EA 节点进入到如下页面:

▲ 实体存储库 2
点击“配置数据库”,我们会进到如下页面:

▲ 实体库配置
在解析规则下选择“规则”:

▲ 实体库配置 2
在这里,我们可以选择三种解析规则:激进解析设置,默认解析设置和传统解析设置。如果能够找到很多的匹配项,我们应该选择保守解析,这样会按照最严格的标准来进行解析。如果在自己现有数据中不能够找到足够的匹配项,我们应该选择激进解析,这样会用可以接受的最宽松的方式进行匹配,也会给我们返回最多的匹配结果。一般情况下,在进行第一次解析的时候,我们都会选择默认解析设置。因为设置的不同,所以我们会得到不同的结果。用户可以根据具体的现有数据情况来选择。
小结
我们通过以上这个案例,更深刻的了解到 Entity Analytics 不仅可以识别掩藏在不同数据源的不同编码的数据其实指向的是同一个用户,也可以提前预知了该用户在银行贷款系统的其他使用途径,发现不同数据源之间的依赖关系,对存在的潜在风险进行提前预警。例如用户 A 在数据源 1 里有了不合理的贷款记录甚至于诈骗行为,就可以尽早防范用户 A 在其他的银行做类似的操作;如果是售后部门使用,通过对不同数据源的分析处理,对拥有潜在消费能力消费的用户进行评估预测。通过 EA 和 Modeler 在现有建模及数据处理功能的结合使用,更好更快更精准的处理数据挖掘和分析领域各种有关诈骗,关联性分析,赌场客户档案分析,市场用户消费预测,社会关系网连接等等各种问题。