Deep Web环境下数据抽取及模式识别的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:yqmaidou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段,能够自动地获取蕴含在Deep Web中丰富的数据资源并对其进行大规模集成显得尤为重要。现有的Deep Web数据源结构化数据抽取方法主要以数据为重点,对结构的重视还不够,很多方法抽取的结果还是无结构或水平结构的。其次,Deep Web数据源往往会发生变化的,比如数据的过期失效、模式信息的改变、页面结构的调整,这些变化都影响原有抽取方法的准确率,带来大量维护问题。此外,目前还没有成熟的方法,将各个数据源中获取的数据整合。可见,这些问题都给Deep Web数据源中结构化数据的抽取带来了困难,本文针对这些问题做了深入研究,并提出了可行的解决方案。本文提出了一套完整的数据抽取及模式识别解决方案,主要内容包括:提出了一种有效的DOM模型下基于聚类的数据抽取方法,结合DOM结构信息与可视化信息分析结果页面,并采用基于聚类方法实现响应页面中的数据抽取,在面对结构复杂的数据和大量的噪声节点时,仍能够完整、准确的获得数据信息。提出了一种基于标签的结果模式抽取方法,通过一种两阶段式的标签获取方法,同步标签获取,对以往的标签获取方法做了很大的改进,一定程度的提高了获取标签的数量与准确性。此外,采用了基于LCS的模式标签匹配技术,提高了模式与标签之间的匹配精度。提出了一种简单有效的包装器模型,提高了数据抽取的时间效率。此外,还对包装器的集成问题进行了深入的研究,解决了由Deep Web数据源更新造成的包装器维护问题。经过实验验证,本文提出的数据抽取方法能够真正有效的抽取响应页面中的有用信息,并且在准确率和召回率方面都要优于现有方法,使得Deep Web中丰富的高质量结构化信息得到充分利用,具有很高的应用价值,可以广泛的应用到各类Deep Web信息集成中。
其他文献
随着社会信息化程度的发展,越来越多的场合需要对人的身份进行可靠地识别,传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全,用人特有的生物特征作为
随着互联网技术和数字信号处理技术的飞速发展,数字媒体信息被广泛地应用到不同领域,数字媒体信息的安全问题也逐步成为不可忽视的事情。数字图像是数字媒体信息中应用最为广
作物病虫草害严重影响作物的产量和品质,针对作物病虫草害识别自动化程度不高,识别诊断不及时问题,应用计算机视觉技术对玉米生长期的叶部病害识别诊断进行研究,以常见的玉米
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对信息库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回
随着社会对嵌入式系统性能的要求不断提高,以PCI(Peripheral Component Interconnection)总线为代表的传统总线已经远远无法满足现代嵌入式系统实时性强、功能丰富、拓扑结构
以国家自然科学基金资助课题“基于医学图像的数据挖掘技术研究(60372072)”为背景,应用医学图像数据挖掘中的关键技术和算法开发了乳腺癌病变检测模块;设计开发了组件式动态
随着网络经济时代的到来,推荐系统已经渐渐深入到人们的日常生活中。急剧增长的网络数据,使得用户(消费者)往往难以发现最需要或者最适合自己的信息,拥有一个可靠的推荐系统
本文主要论述QRCode二维条码的译码过程,对采集到的图像进行灰度化、中值滤波、二值化处理,然后根据条码标准所定义的数据编码程序对解析出来的数据进行重组,经过纠错处理最
近年来,随着多媒体技术和计算机网络的飞速发展,作为多媒体数据的重要组成部分,图像数据也正以惊人的速度增长。如何能从这些海量图像数据中高效、快速地检索出所需要的信息
作为IT业关注的焦点和一项极具发展潜力的技术,Web Services定义了应用程序如何在Web上实现互操作性的一套标准,它可以在网络中被描述、发布、查找以及调用。尽管Web Services