基于本体的Web数据抽取Wrapper研究与实现

来源 :东华大学 | 被引量 : 2次 | 上传用户:zhyj747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为在信息检索领域的一个研究热点,Web数据抽取技术已经日益被众多大学和研究机构作为研究重点。Web数据抽取亦称Web信息采集(WebCrawler、Web Spider、Web Robot或Web Worm)。Web数据抽取主要是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。Web信息抽取工作主要由包装器(Web Wrapper)来完成,包装器是一种软件体系结构,这个结构使用已经定义好的信息抽取规则,将网络爬虫搜集到的Web页面的信息抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。当前包装器在技术上主要是通过为待提取的目标建立相应的模板库,并将文档内容与模板库中的模板匹配而实现的。模板的表达能力直接影响系统的准确度。这些一般是采用关键词与通配符的序列组合作为模板,但这种结构有很大的局限。首先很多情况下词与词之间并无固定的次序关系;其次词的多义性常常会导致错误的分析结果。要克服这些局限,其一是增强模板的知识表达能力;其二是实现某种歧义消解机制。本文的主要研究工作如下:一、提出了一种基于本体的Wrapper(Ontology-Based Wrapper简称OBW)设计方法。该方法是设计了一个本体驱动的数据抽取包装器,其利用本体对Web页面进行解析并抽取领域相关数值,经过解析包装后这些包含领域相关数值的页面文件被称为语义Web页面文件(SWPF)。查询处理器结合本体对这些语义Web页面文件进行分析处理,最终找出相关数据和链接返回给用户。二、针对特定领域构建了一个本体,并详细描述了陔本体的构成特点。在该本体的基础上,详细描述了OBW的工作过程,包括从Web页面数值抽取到最终SWPF的生成。三、基于上述方法,本文设计并实现一个OBW数据抽取系统,通过用真实数据进行实验,对运行结果进行了分析,针对存在的问题,提出了相应的改进方案。本体的构建是OBW的基础与核心,如何构造出良好的面向应用领域的Ontology,对提高信息抽取的精确度有直接的影响,但目前还不能构建出通用型本体,只能针对特定领域构建,并且还只能采用半自动的方式,通过人工参与来实现,因此对用户要求较高,仍然有待深入的研究。
其他文献
本体具有良好的概念层次结构、支持逻辑推理,因而在信息检索领域得到了越来越广泛的应用,大大提高了信息检索的查全率和查准率。在此研究背景下,本文针对本体的半自动构建进
随着计算机和网络技术的不断发展,Web服务的不断普及,单个Web服务的调用已经不能满足服务请求者的需求,服务组合已成为了一种必然趋势。利用Internet上分布的现有的Web服务,
随着高性能计算机计算性能的提高,其存储系统的规模也在不断扩展,单纯依靠传统的硬件平台容错方法已经逐渐无法满足系统对数据可靠性的要求,高性能计算机使用软件方法来保证
视觉跟踪,就是在视频图像序列中对运动目标进行检测、提取和识别,从而获得目标的位置、速度、加速度及运动轨迹等运动信息,实现对目标运动行为的理解。随着廉价的摄像采集终
无线传感器网络(Wireless Sensor Network,WSN)是由分布在各个区域的自组织的节点设备组成的无线网络。这些节点设备通过自身的传感器来监测周围的物理或者环境状况,比如温度
为了实现更为精确、细粒度的环境监测,迫切需要在无线传感器网络(WSN)中引入信息量丰富的图像或视频等多媒体信息,从而形成具备高度感知能力的无线多媒体传感器网络(WMSN)。
随着传感器技术、嵌入式技术以及低功耗无线通信技术的发展,生产具备感应、无线通信和信息处理能力的微型无线传感器节点已经成为可能。这些廉价、低功耗的传感器节点大量部署
随着计算机应用的不断发展,对应用系统执行效率的优化越来越重要。一个首要的问题就是要了解现有系统的运行状况,发现其中的规律和存在的问题,从而进行系统的改进或重新设计
随着市场竞争的加剧,社会对信息的需求量日渐上升,从大量数据中提取所需要的信息进行决策显得更加重要,传统的数据库系统已经无法满足要求。随着数据库技术的发展,一种支持决
随着计算机网络的不断发展以及计算机硬件价格的下降,将计算任务分布到多个物理主机上处理,以提高任务计算速度和降低任务运算成本已经成为一个趋势。在分布式环境中,发布/订阅(P