Deep Web下不确定数据处理的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:geqatm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,对Deep Web的研究也越来越受到人们的关注。Deep Web蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。为了帮助人们快速、准确地利用Deep Web中的海量信息,数据集成成为Deep Web研究领域的一个重要方向。在Deep Web数据集成过程中,数据级、映射级、查询级都会产生不确定数据。首先,由于系统处理的数据多种多样,有些数据本身就具有不确定性,并且从文本或半结构化的数据源中抽取信息等技术都会产生不确定数据;其次,当数据源与中介模式进行映射时,也很有可能产生不确定性的映射关系;最后,用户查询的关键字和结构化查询内容之间对应关系也同样不确定。面对海量的不确定数据,为了满足用户得到感兴趣的信息的要求,本文提出了在Deep Web下不确定数据的处理模型。即首先分析不确定数据的不同来源,对相似度计算方法分类,选择合理的匹配相似度算法或语义相似度算法来得到属性值对应的概率值。再利用数据挖掘相关知识来获得用户感兴趣的信息。关联规则挖掘是数据挖掘一个重要的研究方向,目前大多数的算法集中于提高挖掘包含确定数据的事务频繁集效率。本文改进经典的Apriori和FP-growth数据挖掘算法,得到UD-Apriori算法和UD-FP-growth算法进行不确定数据的处理。其中,UD-Apriori算法是使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。同时利用Apriori性质的反单调性,压缩运算的时间和空间。UD-FP-growth算法继承了FP-growth算法,采用分而治之的策略。该算法基本思想是将整个数据库压缩表示成树结构UD-FP-tree,并将频繁模式挖掘过程转化为递归产生条件子树的过程。UD-Apriori算法和UD-FP-growth算法能高效挖掘不确定数据频繁集,发现不确定数据之间的关联关系,为数据库中缺失的信息提供参考数据,为用户从未知到已知提供更多信息。
其他文献
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,关联规则揭示项集间的相联关系,已广泛应用于科研、商业、金融等领域,极大提高了决策支持
目前电信企业均开始自主研发CRM(Customer RelationshipManagement)产品。在传统的企业开发模式下,开发流程复杂,开发成本较高且性能欠佳,一些轻量级开源框架的出现弥补了这一不
组播是指同一信息从源节点传送到网络中多个目标节点(并不一定是所有节点)的通信方式。使用这种传输方式,数据将以较少的带宽占用满足大规模的客户端的接收,从而以最有效的方式
软件自恢复(software rejuvenation)是针对因内存泄露、数据冗余、未释放的文件锁、磁盘碎片或循环累积的小错误等引起的软件退化(software aging)问题而提出的一种容错技术,
互联网信息的爆炸性增长,使得人们获取有用信息十分困难。语义网上的信息具有机器可读可理解的特性,为解决这个难题提供了研究方向。由于语义网是分布式的,每个组织对同一个
网络缓存能降低网络负荷,减少用户等待时间,以及降低服务器负载。目前通用的网络缓存机制在效能及运作上常有以下几类缺点,如人工管理不便、缓存服务器间协作时的通信量过大
本文首先介绍了联机文字识别系统的基本技术及发展,在此基础上,对维吾尔文字符联机手写的特点以及识别过程的实现进行了初步的研究和探索,并针对维吾尔文字母的识别进行了实
信息系统的开发已走过了传统的面向过程时代和面向对象时代,进入了一个全新的面向框架时代。通过面向框架技术,可以极大地提高软件系统整体解决方案的灵活性和可扩展性。论文在
随着现代教育技术和网络技术的发展与结合,构建一个打破传统、不受地域和时间限制的继续教育与终身学习新模式,已经成为摆在我们面前的重要课题。而基于Internet的现代远程教
随着计算机和网络技术的不断发展,电子商务的应用也逐渐普遍。随着网上业务和交易量的增长,建立快捷、高效、智能化、自动化的电子商务体系成为研究和应用的方向。移动Agent技