基于本体的旅游领域Web信息抽取

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:xunitt1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和Web技术的发展,WWW已经成为一个巨大的信息资源库,然而使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。Web信息抽取技术正是在这样的背景下出现的。目前,关于Web信息抽取方面的研究有很多。Web信息抽取的方法主要有基于自然语言处理的、基于包装器归纳的、基于HTML结构的和基于本体的。基于本体的信息抽取方法主要是利用了对数据本身的描述信息,对网页的依赖少,而且本体可提供机器可识别的领域概念知识及其关系,具有简单的推理能力。此外,在信息抽取中使用本体有许多优点。首先,本体提供了一个丰富的、预定义的词汇库,可作为与数据源的稳定的概念接口,并且独立于数据模式。第二,本体表示的知识足够支持所有相关信息源的转换。第三,本体支持一致的管理和非一致数据的识别等。由上述的分析并结合项目实际的需要,本文提出了一种基于本体的旅游领域Web信息抽取方法,并设计实现了一个广西旅游信息抽取原型系统。本文主要工作和创新点:(1)分析比较了几类主要的本体构建的方法。综合各方面,本文采用Mike Uschold & Micheal Gruninger提出的方法构建旅游领域本体。在构建过程中,本文分析研究了本体概念之间的关系、概念的层次结构、概念的等价性、属性约束以及实例的等价性。(2)介绍了Pellet推理机,阐述了SHOIQ(D)-Tableaux推理算法,研究利用该推理算法对旅游领域本体的推理,包括本体一致性检测、概念的包含关系检测、概念的可满足性检测、属性约束以及实例检测。最后阐述了利用Jena对本体的解析,分析出本体的概念、关键词、关系和实例等信息,存入数据库。(3)在本体推理解析的基础上,首先根据网页转换为DOM树结构,阐述了利用旅游本体关键词定位页面正文进行页面正文提取的算法。接着阐述利用ICTCLAS分词工具和旅游领域词汇相结合进行的中文分词处理,停用词过滤的分析。最后阐述了抽取规则。在抽取规则的构建中,我们利用了属性的语义特点和三元组相结合的方法。最后,根据研究的关键技术,本文实现了一个广西旅游信息抽取原型平台—Tourism_IESystem,并以旅游网站的Web页面为实验对象,验证信息抽取系统的性能。表明了本文方法的技术可行性,具有实际应用前景和现实的价值意义。
其他文献
偏振遥感是遥感领域的一个新兴对地观测手段,地物反射的偏振效应是偏振遥感进行观测的基础.然而,地物反射具有偏振效应,大气粒子的反射与散射也具有偏振效应,并且大气的偏振
现代企业在生产或电子商务过程中,会产生大量的信息,而知识是信息资源的核心和精华,能够实现社会资源的最优配置。正因为知识在信息社会中有着如此重要的地位,所以如何有效的对企
作为计算机视觉的一个重要分支,立体匹配是立体视觉中研究最活跃的主题之一,在三维场景重建、移动机器人、对象识别、智能控制、三维测量等领域得到了广泛应用。立体匹配的实质
随着软件系统开发技术的发展,多层次信息管理软件系统开发的重点已经从注重组件类库的进化转移到了关注系统应用架构的设计上来,应用框架的设计更直接地影响到软件系统整体的健
查询问句分析在问答系统中对问句理解起着重要的作用,一般地,查询句分析需要进行分词,词性标注,命名实体识别,关键词提取,查询扩展,句法分析以及查询问句分类等。在查询问句
将语义技术和信息检索相结合,可使信息检索系统以机器可理解的方式在语义层次上进行,从而提高检索的效率。然而,目前绝大部分的数据依然依赖于传统的关系型数据。因此,如何有效地
面向对象编程(Obiect-Oriented Programming,OOP)是一种实现软件模块化和可重用的编程规范,较好地解决对象和数据的封装问题。但是随着编程实践的日益丰富,OOP也表现出缺陷: