论文部分内容阅读
随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,对Deep Web的研究也越来越受到人们的关注。Deep Web蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。为了帮助人们快速、准确地利用Deep Web中的海量信息,数据集成成为Deep Web研究领域的一个重要方向。在Deep Web数据集成过程中,数据级、映射级、查询级都会产生不确定数据。首先,由于系统处理的数据多种多样,有些数据本身就具有不确定性,并且从文本或半结构化的数据源中抽取信息等技术都会产生不确定数据;其次,当数据源与中介模式进行映射时,也很有可能产生不确定性的映射关系;最后,用户查询的关键字和结构化查询内容之间对应关系也同样不确定。面对海量的不确定数据,为了满足用户得到感兴趣的信息的要求,本文提出了在Deep Web下不确定数据的处理模型。即首先分析不确定数据的不同来源,对相似度计算方法分类,选择合理的匹配相似度算法或语义相似度算法来得到属性值对应的概率值。再利用数据挖掘相关知识来获得用户感兴趣的信息。关联规则挖掘是数据挖掘一个重要的研究方向,目前大多数的算法集中于提高挖掘包含确定数据的事务频繁集效率。本文改进经典的Apriori和FP-growth数据挖掘算法,得到UD-Apriori算法和UD-FP-growth算法进行不确定数据的处理。其中,UD-Apriori算法是使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。同时利用Apriori性质的反单调性,压缩运算的时间和空间。UD-FP-growth算法继承了FP-growth算法,采用分而治之的策略。该算法基本思想是将整个数据库压缩表示成树结构UD-FP-tree,并将频繁模式挖掘过程转化为递归产生条件子树的过程。UD-Apriori算法和UD-FP-growth算法能高效挖掘不确定数据频繁集,发现不确定数据之间的关联关系,为数据库中缺失的信息提供参考数据,为用户从未知到已知提供更多信息。