基于领域本体的网页信息采集与检索研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展以及网络信息的爆炸式增长,人们对信息检索的需求越来越强,Google、百度等搜索引擎已经成为人们日常网络生活必不可少的信息搜索工具。而现实生活中网络用户对信息需求情况却不尽相同,有的用户会需要某一领域的大量信息,经加工整理后形成符合自己或者自己用户需求的资源,用来检索、数据挖掘,以及生成知识库等,数字图书馆、主题专业网站等信息服务机构就是从海量的Web信息中获取自己需要的信息,为自己的用户服务。本课题就是针对经常对某一领域进行信息获取的用户设计的基于领域本体的网络信息采集检索系统。在本文中,利用本体概念的层次性,提出了一个基于本体的文本主题识别和检索模型系统,该系统的功能模块主要分为三大部分,一是本体的构建,管理与存储;二是利用Web爬虫技术对网页进行面向主题的采集;三是信息索引模块,即对采集的信息建立索引,通过对用户发送的提问进行预处理,实现基于本体的扩展查询,反馈高相关度的信息结果。本文首先介绍了本体和基于本体的信息检索的国内外研究现状,并介绍了本体研究中构建本体的一般步骤,然后研究了基于本体的网页信息采集检索系统的关键技术:(1)基于本体概念层次的Web网页主题识别算法研究,主要利用改进的BestFirst算法对Web网页进行面向主题采集,分析了如何通过本体概念来识别网页内容和URL链接的主题相关度,如何将发现的URL链接加入采集作业队列并排序进行采集;(2)结合Lucene开源技术,对采集信息进行倒排索引;按照本体概念间的关系对用户查询进行语义扩展,并赋予权重,通过扩展的关键词组计算网页相似度,按相似度大小返回网页给用户,实现基于本体的扩展查询。接着,我们分析、设计、实现了一个面向主题的网络信息采集检索系统。该系统采用C/S架构,首先利用Jena API将OWL(Web Ontology Language)本体文件映射到数据库中。再利用采集器进行信息采集并保存到服务器,之后建立索引,然后通过网络浏览器访问Web服务器,与运行在Web服务器上的Servlet进行交互。Servlet通过问句分析、扩展查询、结果排序等步骤将最终结果返回给用户。最后,我们设计了几个实验,对不同层次概念的主题采集的精度,检索系统的精度和召回率,以及系统的运行效率等进行考察,进行了若干个实验进行验证,取得了良好的效果。实验结果证明了模型及系统的有效性。
其他文献
朴素与真实成为当下语文课堂最缺乏的品质,语文的饕餮大餐、语文课堂的真正魅力似乎难以体会到了.语文课堂充斥着非语文元素,语文课堂成为教师自己的舞台,作为一线小学语文教
在传统的作业设置中,机械性的抄写占据了很大比重,学生疲于应对,苦不堪言,但是却收效甚微.要想改变这种不良现状,语文教师应该积极从改变作业设置思路入手,从学生的学习兴趣
群文阅读是师生围绕着一个或多个议题选择一组文章,而后围绕议题进行阅读和集体建构,最终达成共识的过程,它既能帮助学生提高阅读的数量和质量,又能全面提升小学生的综合语文
本文主要是围绕技术创新扩散的微观作用原理而展开的,目的在深入了解技术创新扩散的微观机制的基础上,建立基于扩散微观作用原理的扩散仿真模型,为进一步开展创新扩散研究、深入认识扩散规律、预测并在一定程度上控制和优化扩散过程,提供新的、有效的分析工具。本文借鉴国内外相关研究成果,将宏观分析和微观仿真方法相结合,从技术创新扩散的原理、动力、采用行为分析到元胞自动机仿真分析对技术创新扩散的微观作用原理进行了深
随着新课程标准不断地提出,在小学语文教学中,越来越注重小学生的语文口语交际能力,其也在语文教学中的占比越来越大.因此,在小学语文教学中,教师应充分重视口语交际的教学活
伴随着新课程改革的持续深入推进,合作学习的教学模式在各大高中得到了普及。但是值得注意的是,这种学习模式依旧不够成熟,存在诸多弊端,错误的运用可能使得教学得不偿失,因
本文阐述语文教学的实践性、社会性.改变脱离生活的注入式教学模式,探讨如何将初中语文课堂教学活动与学生的生活积累有效联系的教学途径,促进学生真正成为听、说、读、写活
语文作为一门语言类学科,对于学生的影响并不仅限于学科内容本身,毕竟在语文知识学习的过程中所锻炼出来的逻辑思维能力是能够让学生更好地了解其他学科的相关内容.随着素质
在市场竞争日益激烈的环境下,由于科技的迅速发展以及消费者的需求不断变化等因素,产品的生命周期大大缩短。面对如此严峻的局面,企业要想赢得市场必须在产品开发和管理上有所作