论文部分内容阅读
随着互联网的不断发展,Web上积累了大量的有用数据,从Web上抽取和集成信息逐渐成为研究热点。Web页面上的信息经常以HTML的形式表现出来,但是HTML显示的数据缺少严格的标准限制,显示的数据没有一定的结构和模式,计算机难于解析其语义。因此,从Web页面上抽取信息并集成到一起是一项必要的工作。信息以统一的形式集成在一起的好处是方便对数据做自动化处理,方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。结合电子商务等知识密集型Web站点的数据特征,本文提出了一种基于本体的Web页面结构化信息抽取模型。主要有以下几个方面的工作:(1)比较了信息抽取与信息检索的异同,介绍了信息抽取的工作原理、主要任务和评价指标,分析了当前信息抽取系统的技术特点和存在的问题;(2)介绍了本体相关的基础知识,讨论了在信息抽取中使用本体的优势,给出了基于本体的信息抽取常见的模型结构。在抽取系统中使用本体技术,能够消除语义异构现象,本体可作为数据源的稳定的概念接口,独立于数据模式;(3)引入PAT树技术,构造样本页面的PAT树结构,从中提取Web页面的数据模式。PAT树是一种改进了的“后缀树”,用来存储源字符串的所有可能后缀子串。同时,在模式提取阶段,提出了模式筛选的三个原则:正规性、紧凑性和分布性;(4)结合本体学习的方法和Protégé工具,构造了一个简单的图书领域本体,最后转化成OWL文件,用本体描述语言OWL形式化地描述该领域本体;(5)给出了一个规则生成算法,该算法能够借助领域本体生成抽取规则,指导具体的抽取动作。抽取规则可以从领域本体中归纳学习出来,并且监督领域本体的构造过程;同时领域本体又可以用来指导规范抽取规则,排除无效规则。规则库和领域本体两者相互学习,相互影响。(6)以“中国图书网”上的Web页面为实验对象,应用规则生成算法生成的抽取规则抽取结构化信息保存到数据库中,对模型进行测试和分析。实验结果表明该模型在查全率和准确率等方面都取得了较好的效果。