论文部分内容阅读
随着互联网技术的迅猛发展以及网络信息的爆炸式增长,人们对信息检索的需求越来越强,Google、百度等搜索引擎已经成为人们日常网络生活必不可少的信息搜索工具。而现实生活中网络用户对信息需求情况却不尽相同,有的用户会需要某一领域的大量信息,经加工整理后形成符合自己或者自己用户需求的资源,用来检索、数据挖掘,以及生成知识库等,数字图书馆、主题专业网站等信息服务机构就是从海量的Web信息中获取自己需要的信息,为自己的用户服务。本课题就是针对经常对某一领域进行信息获取的用户设计的基于领域本体的网络信息采集检索系统。在本文中,利用本体概念的层次性,提出了一个基于本体的文本主题识别和检索模型系统,该系统的功能模块主要分为三大部分,一是本体的构建,管理与存储;二是利用Web爬虫技术对网页进行面向主题的采集;三是信息索引模块,即对采集的信息建立索引,通过对用户发送的提问进行预处理,实现基于本体的扩展查询,反馈高相关度的信息结果。本文首先介绍了本体和基于本体的信息检索的国内外研究现状,并介绍了本体研究中构建本体的一般步骤,然后研究了基于本体的网页信息采集检索系统的关键技术:(1)基于本体概念层次的Web网页主题识别算法研究,主要利用改进的BestFirst算法对Web网页进行面向主题采集,分析了如何通过本体概念来识别网页内容和URL链接的主题相关度,如何将发现的URL链接加入采集作业队列并排序进行采集;(2)结合Lucene开源技术,对采集信息进行倒排索引;按照本体概念间的关系对用户查询进行语义扩展,并赋予权重,通过扩展的关键词组计算网页相似度,按相似度大小返回网页给用户,实现基于本体的扩展查询。接着,我们分析、设计、实现了一个面向主题的网络信息采集检索系统。该系统采用C/S架构,首先利用Jena API将OWL(Web Ontology Language)本体文件映射到数据库中。再利用采集器进行信息采集并保存到服务器,之后建立索引,然后通过网络浏览器访问Web服务器,与运行在Web服务器上的Servlet进行交互。Servlet通过问句分析、扩展查询、结果排序等步骤将最终结果返回给用户。最后,我们设计了几个实验,对不同层次概念的主题采集的精度,检索系统的精度和召回率,以及系统的运行效率等进行考察,进行了若干个实验进行验证,取得了良好的效果。实验结果证明了模型及系统的有效性。