基于领域Ontology的Web信息抽取研究

来源 :东北师范大学 | 被引量 : 11次 | 上传用户:huanyingchangmaoshou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,网络上的信息与日俱增,已成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,使人们很难准确的在Web上搜索到真正想要的信息。Web信息抽取技术为人们提供了更有力的信息获取工具,是解决目前Web页面存在的各种各样问题的一个有效途径。其主要的任务是将Web中各种不同格式表达的信息通过抽取技术转化为统一的信息表达方式。本文首先介绍了信息抽取的产生背景、技术内涵和基本应用,分析了信息抽取系统体系结构、关键技术以及分类和衡量指标。接着重点介绍了Ontology的基本知识,Ontology的构建以及Ontology的解析。在此基础上,本文提出了一种基于领域Ontology的Web信息抽取方法,该方法一方面利用领域Ontology里的概念、属性、层次结构等自动生成匹配模式,另一方面对Web页面进行预处理并对预处理后的文本进行语法分析,再和先前生成的抽取规则一起对预处理后的文档进行信息抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。基于领域Ontology的信息抽取最大的优点是抽取对Web页面的结构没有依赖性。另外,利用Ontology来描述和表达信息抽取的知识库增强了抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。在本文中,我们根据上述方法并结合实际情况,设计了一个基于计算机专业求职信Ontology(Computer job hunting letter ontology (CJHLO))的信息抽取系统,并编写代码实现了这个系统。我们详细介绍了该系统的总体框架,以及系统的各主要模块的设计等。本文通过解析Ontology得到的概念、属性、层次结构构建了Ontology模型树,并使预处理后的无结构文本按照Ontology模型树结构进行待抽取对象的信息抽取。最后介绍了实验结果并对结果进行了分析。
其他文献
近年来,随着经济的发展、竞争的加剧,人们对知识的需求越来越强烈,通过网络进行的教育也越来越普及。网络教学逐渐成为人们进行学习的一种有效方式。而网络教学由于其本身的
我国经济日益发展,人口老龄化趋势逐渐严重,各种慢性疾病已经成为了老年人死亡的主要原因,而这些慢性疾病潜伏时间较长且随着年龄不断加重,为了防范于未然,居家健康呵护已然
随着第三代移动通信技术的飞速发展和普及,在移动通信领域中出现了越来越丰富的业务种类,除了传统的语音与数据业务外,多媒体业务、交互式数据业务、电子商务、互联网业务等多种
随着企业信息化发展进程的不断加快,目前越来越多的企业开始构建适合自身行业实际的企业应用集成架构,希望可以通过系统应用整合进一步满足日益增长的业务发展需求,消除企业
随着Web资源的迅速增长,互联网中的信息越来越丰富。Web信息资源分类的质量将直接关系着现有信息资源能否高效的服务于信息需求者,所以Web信息资源分类技术的研究具有重要的
科技引领生活,随着物联网的兴盛以及人们对家居理念的提升,家居智能化成为一种迫切需要,并变得越来越热门。智能家居运用计算机技术、通信技术等把家居环境中的一些设备整合
在计算机图形学和计算机视觉领域中,传统上都是用线性代数为数学框架对其进行研究。现在将要使用的一个新的数学系统是几何代数,尤其是五维共形几何代数,它统一了过去使用的
飞思卡尔半导体(Freescale)是全球最大的半导体公司之一,S12系列微控制器是其主推产品,广泛应用于汽车电子、智能家电及工业自动化等领域。该系列微控制器内置背景调试模块,
随着互联网的高速发展,Internet在我们的生活中扮演着越来越重要的角色,成为我们生活和工作中不可缺少的一部分。但是,因为WWW是一个虚拟的开放环境,因此任何人都能够在上面
伴随计算机三维视觉时代的到来,计算机运算能力的不断提高和新媒体产业的蓬勃发展,三维人脸建模和动画已成为计算机图形学领域的研究热点。今天,在通讯、人机交互、多媒体、娱乐