论文部分内容阅读
Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段,能够自动地获取蕴含在Deep Web中丰富的数据资源并对其进行大规模集成显得尤为重要。现有的Deep Web数据源结构化数据抽取方法主要以数据为重点,对结构的重视还不够,很多方法抽取的结果还是无结构或水平结构的。其次,Deep Web数据源往往会发生变化的,比如数据的过期失效、模式信息的改变、页面结构的调整,这些变化都影响原有抽取方法的准确率,带来大量维护问题。此外,目前还没有成熟的方法,将各个数据源中获取的数据整合。可见,这些问题都给Deep Web数据源中结构化数据的抽取带来了困难,本文针对这些问题做了深入研究,并提出了可行的解决方案。本文提出了一套完整的数据抽取及模式识别解决方案,主要内容包括:提出了一种有效的DOM模型下基于聚类的数据抽取方法,结合DOM结构信息与可视化信息分析结果页面,并采用基于聚类方法实现响应页面中的数据抽取,在面对结构复杂的数据和大量的噪声节点时,仍能够完整、准确的获得数据信息。提出了一种基于标签的结果模式抽取方法,通过一种两阶段式的标签获取方法,同步标签获取,对以往的标签获取方法做了很大的改进,一定程度的提高了获取标签的数量与准确性。此外,采用了基于LCS的模式标签匹配技术,提高了模式与标签之间的匹配精度。提出了一种简单有效的包装器模型,提高了数据抽取的时间效率。此外,还对包装器的集成问题进行了深入的研究,解决了由Deep Web数据源更新造成的包装器维护问题。经过实验验证,本文提出的数据抽取方法能够真正有效的抽取响应页面中的有用信息,并且在准确率和召回率方面都要优于现有方法,使得Deep Web中丰富的高质量结构化信息得到充分利用,具有很高的应用价值,可以广泛的应用到各类Deep Web信息集成中。