论文部分内容阅读
作为在信息检索领域的一个研究热点,Web数据抽取技术已经日益被众多大学和研究机构作为研究重点。Web数据抽取亦称Web信息采集(WebCrawler、Web Spider、Web Robot或Web Worm)。Web数据抽取主要是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。Web信息抽取工作主要由包装器(Web Wrapper)来完成,包装器是一种软件体系结构,这个结构使用已经定义好的信息抽取规则,将网络爬虫搜集到的Web页面的信息抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。当前包装器在技术上主要是通过为待提取的目标建立相应的模板库,并将文档内容与模板库中的模板匹配而实现的。模板的表达能力直接影响系统的准确度。这些一般是采用关键词与通配符的序列组合作为模板,但这种结构有很大的局限。首先很多情况下词与词之间并无固定的次序关系;其次词的多义性常常会导致错误的分析结果。要克服这些局限,其一是增强模板的知识表达能力;其二是实现某种歧义消解机制。本文的主要研究工作如下:一、提出了一种基于本体的Wrapper(Ontology-Based Wrapper简称OBW)设计方法。该方法是设计了一个本体驱动的数据抽取包装器,其利用本体对Web页面进行解析并抽取领域相关数值,经过解析包装后这些包含领域相关数值的页面文件被称为语义Web页面文件(SWPF)。查询处理器结合本体对这些语义Web页面文件进行分析处理,最终找出相关数据和链接返回给用户。二、针对特定领域构建了一个本体,并详细描述了陔本体的构成特点。在该本体的基础上,详细描述了OBW的工作过程,包括从Web页面数值抽取到最终SWPF的生成。三、基于上述方法,本文设计并实现一个OBW数据抽取系统,通过用真实数据进行实验,对运行结果进行了分析,针对存在的问题,提出了相应的改进方案。本体的构建是OBW的基础与核心,如何构造出良好的面向应用领域的Ontology,对提高信息抽取的精确度有直接的影响,但目前还不能构建出通用型本体,只能针对特定领域构建,并且还只能采用半自动的方式,通过人工参与来实现,因此对用户要求较高,仍然有待深入的研究。