基于多领域本体的探索式搜索的查询推荐方法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:dingzhiyoulan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在搜索过程中,如果用户不了解目标领域,或者用户的搜索任务相对比较复杂,或者系统对信息的索引不充分,这种情况下用户的搜索行为通常称为探索式搜索。在探索式搜索中,由于基于本体查询推荐可以找出与初始查询或关键词相关的其他查询或关键词,帮助用户构造更准确查询,成为了支持探索式搜索的有效方法。在探索式搜索中,由于其探索性导致用户的关注点较广泛,通常涉及多个领域。因此,这些特性使得在基于本体的探索式搜索的查询推荐中需要引入多领域本体,从而帮助用户更好的完成探索式搜索。针对上述问题,本文研究基于多领域本体的探索式搜索的查询推荐方法。本文首先通过隐式马尔科夫模型的参数训练和预测,解决了多领域本体中的资源歧义问题;接下来借助搜索引擎获取查询词的权威领域集合,本文分析本体概念在权威领域集中的具体使用情况,实现了在查询推荐过程中为不同领域本体赋予权重;最终利用推荐词的相关文档集合和探索路径信息,本文构建了推荐词的探索模型,并以此为基础,实现推荐词的排序和选取方法。具体的,首先,针对于多领域本体的资源歧义问题,本文利用隐式马尔科夫模型,通过大规模的本体词义标注语料库,提取特征后训练模型参数,然后对未标注句子中多义词的义项进行预测,从而实现了多领域本体的资源消歧。随后,本文通过获取查询词的权威领域集,将权威领域集中的关键词与不同领域本体中的概念信息以及文本型的信息进行相似度计算,在查询推荐过程中为不同领域本体赋予权重。最后,本文利用推荐词的相关文档集合和探索路径信息,分别构建了推荐词的语言模型、探索模型和查询模型。通过考察探索模型与查询词的语言模型的分布的差异,为推荐词赋予权重。综合本体权重和推荐词权重,实现了推荐词的排序与选取。本文将推荐词选取方法与两种基线方法的推荐结果进行对比,分别从客观和主观两个方面进行考量。实验结果表明本文的推荐词选取方法能够帮助用户更好的构建查询,从而完成探索式搜索任务。
其他文献
随着计算机技术的发展和政府机构改革的深化,人们的生活方式和思维方式产生了巨大变化。人们愈来愈依赖于办公自动化,原有的办公模式已经不能适应日益增长的事务处理、信息共享
文本聚类是信息检索(Information Retrieval:IR)和数据挖掘(Data Mining:DM)等领域的一个重要研究方向。它是一种无监督的分类方法,根据样本自身的特点分成若干类,使得类内样本的
传统的资源共享采用C/S方式,服务器的性能制约了网络整体性能的提高,并且大量的客户端资源得不到充分利用,造成了资源的浪费。如何充分利用网络中的所有闲散的资源,避免C/S方
随着信息技术的快速发展,数据库系统的应用已迅速从传统的数据处理发展到空间的、时间的信息处理,多媒体信息处理,办公信息库,科学的、面向应用的数据库和基于Internet的数据
随着互联网络的快速发展,网络安全问题日益突出。由于网络入侵手段的多样化,传统的防火墙技术不足以巩固整个网络安全体系,入侵检测技术由此引起了人们越来越多的重视,已经成
Ad Hoc网络是由一组带有无线通信收发装置的移动终端节点组成的一个多跳、临时、无中心网络,可以在任何时候、任何地点快速构建起来的移动通信网络,并且不需要现有基础网络设
并仃程序设计滞后问题已成为多核处理器发展的瓶颈。为了解决该问题,充分利用多核处理器的性能优势,突破传统并行程序设计模式的局限性,一种新型的并行程序设计模式-事务存储
现代社会复杂多变,地震、山体房屋建筑坍塌、火灾、劫持绑架、恐怖主义时有发生,严重威胁着国家和人民的财产安全,更主要的是人民的生命安全。在这些城市灾害发生的时候,公安执法
为了了解学生的学习情况,分析教学的效果,都需要对学生进行考核、评价,而一份高质量的试卷是准确评价学生的基础。在日常教学中,为了组好一份试卷,教师往往要花费很多时间,是要利用
在嵌入式系统的工业、军事及个人应用中,许多场合需要使用存储器来存储大量的数据,而且要求断电时能够保存数据。存储卡的特点刚好满足了嵌入式存储的要求:体积小、功耗低、