一种垂直元搜索引擎的研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:UsherChen2431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比较传统全文搜索引擎,垂直搜索引擎可以为用户提供更专业、更准确的知识,避免用户在大量的数据中筛选与专业相关的知识,是搜索引擎的研究热点和发展趋势。目前垂直搜索引擎采用与通用全文搜索引擎类似的全文检索系统结构,在专业相关度方面具有相当高的水平。但与通用全文搜索引擎类似,全文检索的垂直搜索引擎存在着查全率较低、网络资源消耗过多等问题。针对这些问题,本文提出了一个基于元搜索技术的垂直搜索引擎系统结构,虽然结果的专业相关度有所下降,却提高了垂直搜索引擎的查全率。经过实验,证明了该系统可以满足用户垂直搜索的需要。论文的主要工作有:1.针对目前垂直搜索引擎网络信息覆盖率较低的问题,提出了采用网络信息覆盖率更高的元搜索引擎作为信息收集的垂直搜索引擎系统结构。针对元搜索引擎不具有信息收集和分析功能的特点,为改进结果以适应垂直搜索的需要,系统增加了信息收集和信息分析功能。2.信息收集是搜索引擎的基础,本文针对目前垂直搜索引擎信息收集中存在的网络信息覆盖率较低、被收集信息中无效信息较多等问题,提出了基于统计用户浏览时间的信息收集方法。该方法在网络信息覆盖率更高的元搜索引擎结果的基础上收集大量用户关注度较高的信息,一方面增加了信息的覆盖率,另一方面增加了被收集信息的专业相关度。3.信息检索是搜索引擎的核心,本文引入数据挖掘对所收集的信息进行分析,得出用户满意度较高的信息中词汇与查询关键词之间的相关规则。提出了隐形关键词的概念,并将隐形关键词用于信息检索。实验证明加入隐形关键词的搜索可以提高系统查询结果的专业相关度。4.用户最关心搜索结果的前面的结果,所以结果排序是搜索引擎必须要重视的问题。目前,元搜索引擎结果排序所用到的信息较少,不能保证结果的相关度。本文提出适合系统结果排序的排序方法。并针对引入隐形关键词的搜索提出了改进后的位置排序算法,增加结果的专业相关度。本文提出了一种基于元搜索技术的垂直搜索解决方案,为垂直搜索引擎的设计提供了一个新的思路。
其他文献
随着现代计算机网络技术的发展,诸如银行系统、火车票网上订票系统、卫星控制系统等分布式系统得到广泛的开发和使用。针对大规模分布式系统以及安全至上的系统,容错能力是其设
基于超图的半监督学习因其既利用了有标记数据样本的信息又利用了无标记数据样本的信息,近年成为一个研究热点,有很高的研究及应用价值,在图像处理、模式识别、语音识别等领域已
交通标志牌作为一种重要的交通基础设施,可以为驾驶员和行人提供道路指引信息,规范驾驶员行为的同时也起到了便利交通、保障安全的作用。道路交通标志检测作为智能交通领域的一
随着智能拍照手机的普及和互联网大数据的兴起,场景文本识别的应用越来越广泛,诸如移动翻译系统、车辆识别、多媒体检索、盲人导航等。最近几年场景文本识别受到了广泛关注,未来
近年来,采用P2P模式解决流媒体服务系统的瓶颈问题受到越来越多的重视。如何在充分利用P2P网络中众多节点资源的前提下,确保流媒体服务质量、提高播放的性能,成为P2P流媒体技
IDP(Integrated Data-Service Platform)是开放的、模块化的、基于标准的基础平台,它向下提供与短信网关、彩信中心、BOSS (Business & Operation Support System,运营支撑系
近年来,随着无线网络技术的飞速发展,各种无线技术在相互竞争的同时,也正在逐步走向互补融合。未来无线网络发展的趋势必然是在保留现有各种无线技术的基础上,提供一种统一的
基于上下文的自适应二进制算术编码(CABAC)是H.264/AVC标准的一种熵编码方案,与另一熵编码方式基于上下文的自适应二进制变长编码(CAVLC)以及传统的VLC基线熵编码方式比提高了
在电子商务蓬勃发展的网络环境下,越来越多的关于商品的主观性评论文本出现在各类购物网站上。这些评论文本中包含用户对产品各个方面的情感倾向,如喜欢、讨厌等。对其进行情
人脸特征定位及对应点匹配是计算机视觉和模式识别领域一个非常热门的研究方向,它是人脸识别、人脸动画、人脸跟踪、三维人脸重建、立体匹配以及建立统计模型等的前提步骤之