论文部分内容阅读
Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取出这些信息并赋予语义,成为了倍受关注的Deep Web研究课题之一。本论文针对Deep Web信息抽取的应用需求,运用中文分词、本体建模、机器学习等多种技术,对网页预处理、领域本体构建、双重模板构建以及模板匹配等过程进行了深入的研究,并选取天气和图书领域进行Deep Web信息抽取实验。论文的工作主要包括:(1)网页预处理。主要研究了将HTML文档呈现为带有DIV块元素、属性和文本的层次树,以及将DIV块文本转换成字符串流、中文分词、统计词频等网页预处理过程。目标是将HTML文档处理成以DIV块为基本单元,并含有分词结果的数据集合。(2)领域本体构建。领域本体作为某个领域内不同主体之间进行交流的语义基础,在模板构建过程中能够起到优化的作用,减少模板中出现与领域不相关的内容。(3)双重模板构建。考虑到现有网页通常在整体上利用"DIV+CSS"结构设计,在细节处利用表格布局的特点,采用DIV块模板和表格模板结合的方法。利用网页预处理的结果,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以定位到数据块。接着利用XML技术,机器辅助构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。实验表明,利用C4.5决策树算法训练出的分类模型准确率达到了95.2%,在实际的应用中,能准确地进行DIV块的分类。利用双重模板进行Deep Web信息抽取的平均准确率和召回率都可以达到95%以上,取得了较好的抽取效果。同时,双重模板比单一模板更稳定和更利于维护。(4)模板匹配。传统的基于URL的模板匹配方法误差较大。本论文在传统方法的基础上,结合网页相似度的计算方法,进行模板匹配。首先利用URL字符串进行粗略的匹配,再利用网页相似度进行更精确的匹配。实验表明,在不降低匹配效率的同时,模板匹配的正确率达到了93%,相比于传统方法提高了32.9%。