技术开发 频道

达梦数据库XML关联规则扩展

  【IT168 文档 概述

  相对于关系数据库关联规则研究的日趋成熟,XML关联规则的研究则是一个新兴的热点。由于XML数据库结构的特殊性,XML关联规则的挖掘面临着更多的挑战,包括复杂的层次结构、节点在位置上的上下文关系等。

  现有研究将子树作为XML关联规则的构成基础,频繁子树的挖掘则是获取XML关联规则的前提。频繁子树的挖掘过程可以分为两个过程,首先在有序的XML文档树中确定所有的频繁路径表达式,用于定位可能的频繁子树;然后以频繁路径表达式定位的节点为根节点,通过节点扩展的方法逐步生成频繁子树。

  和经典关联规则相似,XML关联规则同样可以利用Apriori特性从挖掘的频繁子树中构造。除此之外,研究人员还研究了可定制的规则挖掘方法。例如通过扩展XQuery语句实现XML关联规则的挖掘;利用一种称为HoPS的分层数据结构避免挖掘过程中的多次文档扫描;使用模板来定义用户感兴趣的XML关联规则的方法,通过模板中变量的设置使挖掘的目标更具普遍性。

  还有其它的一些挖掘方法,总的来说上述XML关联规则及其挖掘方法存在的一个共同问题是:仅限于挖掘单棵子树内部、确定的节点或子树间的关联关则,即要求规则的前、后件必须不重复的包含于同一棵子树中,并以该子树的统计计数作为度量规则兴趣度的基础。例如图1中,关联规则//Location/SB=>//Item/Fuel的前、后件都位于由路径表达式/AirForce/order确定的子树中(如图2(a)所示)。

  这种方式下刻画的规则是十分有限的,更为普遍的是形如图2(b)所示的涉及多子树的XML关联规则。该规则的不同之处在于没有不重复包含规则前、后件的子树,作为度量规则兴趣度的前提。这也是现有XML关联规则挖掘方法所无法处理的。

  针对上述问题,本文在单子树的XML关联规则的基础上,介绍一种一般化的、以查询模式为基础的扩展关联规则(eXtensible Association Rule, XAR)的刻画方法,通过该方法不仅可以描述单子树的XML关联规则,更能够解决多子树的XML关联规则的刻画问题,使关联规则能够涵盖数据之间更多、更有意义的关联关系。

0
相关文章