论文部分内容阅读
相比较传统全文搜索引擎,垂直搜索引擎可以为用户提供更专业、更准确的知识,避免用户在大量的数据中筛选与专业相关的知识,是搜索引擎的研究热点和发展趋势。目前垂直搜索引擎采用与通用全文搜索引擎类似的全文检索系统结构,在专业相关度方面具有相当高的水平。但与通用全文搜索引擎类似,全文检索的垂直搜索引擎存在着查全率较低、网络资源消耗过多等问题。针对这些问题,本文提出了一个基于元搜索技术的垂直搜索引擎系统结构,虽然结果的专业相关度有所下降,却提高了垂直搜索引擎的查全率。经过实验,证明了该系统可以满足用户垂直搜索的需要。论文的主要工作有:1.针对目前垂直搜索引擎网络信息覆盖率较低的问题,提出了采用网络信息覆盖率更高的元搜索引擎作为信息收集的垂直搜索引擎系统结构。针对元搜索引擎不具有信息收集和分析功能的特点,为改进结果以适应垂直搜索的需要,系统增加了信息收集和信息分析功能。2.信息收集是搜索引擎的基础,本文针对目前垂直搜索引擎信息收集中存在的网络信息覆盖率较低、被收集信息中无效信息较多等问题,提出了基于统计用户浏览时间的信息收集方法。该方法在网络信息覆盖率更高的元搜索引擎结果的基础上收集大量用户关注度较高的信息,一方面增加了信息的覆盖率,另一方面增加了被收集信息的专业相关度。3.信息检索是搜索引擎的核心,本文引入数据挖掘对所收集的信息进行分析,得出用户满意度较高的信息中词汇与查询关键词之间的相关规则。提出了隐形关键词的概念,并将隐形关键词用于信息检索。实验证明加入隐形关键词的搜索可以提高系统查询结果的专业相关度。4.用户最关心搜索结果的前面的结果,所以结果排序是搜索引擎必须要重视的问题。目前,元搜索引擎结果排序所用到的信息较少,不能保证结果的相关度。本文提出适合系统结果排序的排序方法。并针对引入隐形关键词的搜索提出了改进后的位置排序算法,增加结果的专业相关度。本文提出了一种基于元搜索技术的垂直搜索解决方案,为垂直搜索引擎的设计提供了一个新的思路。