基于本体的Web页面结构化信息抽取

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xinshuai99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,Web上积累了大量的有用数据,从Web上抽取和集成信息逐渐成为研究热点。Web页面上的信息经常以HTML的形式表现出来,但是HTML显示的数据缺少严格的标准限制,显示的数据没有一定的结构和模式,计算机难于解析其语义。因此,从Web页面上抽取信息并集成到一起是一项必要的工作。信息以统一的形式集成在一起的好处是方便对数据做自动化处理,方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。结合电子商务等知识密集型Web站点的数据特征,本文提出了一种基于本体的Web页面结构化信息抽取模型。主要有以下几个方面的工作:(1)比较了信息抽取与信息检索的异同,介绍了信息抽取的工作原理、主要任务和评价指标,分析了当前信息抽取系统的技术特点和存在的问题;(2)介绍了本体相关的基础知识,讨论了在信息抽取中使用本体的优势,给出了基于本体的信息抽取常见的模型结构。在抽取系统中使用本体技术,能够消除语义异构现象,本体可作为数据源的稳定的概念接口,独立于数据模式;(3)引入PAT树技术,构造样本页面的PAT树结构,从中提取Web页面的数据模式。PAT树是一种改进了的“后缀树”,用来存储源字符串的所有可能后缀子串。同时,在模式提取阶段,提出了模式筛选的三个原则:正规性、紧凑性和分布性;(4)结合本体学习的方法和Protégé工具,构造了一个简单的图书领域本体,最后转化成OWL文件,用本体描述语言OWL形式化地描述该领域本体;(5)给出了一个规则生成算法,该算法能够借助领域本体生成抽取规则,指导具体的抽取动作。抽取规则可以从领域本体中归纳学习出来,并且监督领域本体的构造过程;同时领域本体又可以用来指导规范抽取规则,排除无效规则。规则库和领域本体两者相互学习,相互影响。(6)以“中国图书网”上的Web页面为实验对象,应用规则生成算法生成的抽取规则抽取结构化信息保存到数据库中,对模型进行测试和分析。实验结果表明该模型在查全率和准确率等方面都取得了较好的效果。
其他文献
三维目标检测技术在机器人导航、逆向工程、目标识别、工业自动化、目标跟踪等领域有广泛的需求和应用潜力。立体视觉法是三维检测技术中的典型方法,通过两台CCD拍摄的两幅图
在网络迅猛发展的今天,远程网络教育已经成为现代教育中的一个重要分支,其有着方法新颖,时间灵活,受益面广等特点。考试,作为教育中的一个重要的组成部分,是检验学生对知识接
无论是从软件工程还是从软件体系结构本身的角度来看,软件体系结构可以在软件开发和维护中发挥重要作用,好的软件体系结构可以增加软件的可重用性和可维护性。三层/多层体系结
随着软件系统的日益复杂,软件开发、维护以及进化的大部分工作和主要成本集中在对现有系统的理解上。逆向工程是一种辅助程序理解的重要手段,是软件工程的一个重要分支,通过
随着网络技术的发展,网络管理正逐步成为网络构建和维护中必不可少的重要因素。特别是随着以IPv6为核心的下一代网络的逐渐部署,IPv4、IPv6混合网络环境下的网络管理意义尤为
伴随着有线网络的快速发展和广泛应用,快捷高效、组网灵活的无线网络技术也在飞速发展。无线网络技术解决了有线网络“线”的限制,在很多场合无线局域网成为了有线局域网的替
Web服务作为一种能够快速集成应用的技术,建立在开放和标准的规格之上,其主要目标是在各种异构平台上构建一个与平台、语言无关的通用技术层,依靠这个技术层实现不同平台上应用
随着计算机网络技术的飞速发展以及广泛应用,计算机网络安全成了越来越重要的问题。如何能快速、准确、有效地识别己有的攻击和日益增多的新的攻击就是入侵检测系统所面临的
本文研究了一种基于软件无线电思想的全球定位系统(GPS)软件接收机的实现,重点在于其实现的整个过程都放在数字信号处理器(DSP)内采用全软件的方法来完成,从而有效地节省了硬件
随着计算机和网络在日常工作中的广泛应用,工作流技术已经成为协调企业业务过程、增强企业应变能力和竞争力的重要技术。工作流模型作为工作流系统的过程定义,在工作流系统中发