基于网页主题相关度的搜索引擎排序算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ddd12322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网中的信息不断快速增长,在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。由于网络上的资源缺乏统一的规范,大量网页的结构性、组织性比较差,并且包含的内容涉及到广泛的领域,搜索引擎返回给用户的结果往往不能很好地满足用户的需要。  在研究分析了国内外搜索引擎的发展背景的基础上,对基于内容的排序算法和基于链接的排序算法进行了深入的分析,并探讨了国内外现有的基于链接结构的改进算法,对其进行了归纳和总结。  为了把符合用户检索需求的网页更好的排在搜索结果的前面,得到较高的查准率,使其符合用户的浏览习惯,针对现有基于链接结构的PageRank算法的特点和不足,基于网页主题相关度的改进PageRank算法很好的解决了上述问题。这种改进算法通过引入网页相关度的信息,改变了网页之间PageRank值传递策略,从而提高算法的精确度。通过分析网页内容,提取出网页中所有链接和与其相对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法,从而提高用户搜索的满意度。  最后通过实验表明,改进的PageRank算法能够指导用户方便的找到所需要的网页,而且,通过引入网页主题相关度的分析,提高了返回结果的查准率,同时用户的满意度进一步提高,并且给出了继续研究的方向,以及可能存在的问题。
其他文献
目前,作为下一代网络雏形的语义Web得到了学术界的广泛关注和研究,而如何在语义Web上寻找到满足用户需求的语义Web服务是一个研究热点。现有的语义Web服务发现方法因为增加了对
随着我国金融产业的发展,银行市场竞争日益激烈,银行基本业务及各类中间业务品种不断增加,现有的信息系统模式已经越来越不能满足业务发展的要求。为了适应市场需求并走在同
本文的工作也是基于此而展开的,主要立足于解决阵列天线数字波束形成技术的实现方法,以及阵列天线的主瓣宽度和低副瓣电平等问题。 针对天线阵元数量较多,导致天线成本高的特
头发的建模与仿真涉及到计算机图形学技术的各个方面,具有重要的研究价值,随着计算机应用技术的不断发展,应用范围日趋广泛,已经在计算机动画、电子游戏、电影电视制作等领域
近年来,电力线载波通信技术成为通信系统中新的研究热点。电力线通信利用现有的低压配电网络基础设施,成本比较低。能够实现通信网、因特网、广电网、电力网的融合,是一种“
随着计算机网络的发展,对网络服务质量的需求越来越高,不但对网络有很高的带宽要求,而且要求信息传输的低延迟和低抖动等。网络拥塞是影响网络服务质量的重要因素,避免拥塞、
随着我国进入WTO,国外货运代理公司纷纷进入我国,我国的货运代理企业正面临着越来越激烈的竞争。企业信息化作为提高企业工作效率、降低企业成本的途径,目前正受到越来越多的
所谓信息栅格是指全球互连的端到端的信息能力、相关程序及人员的集合,它对用户所需的信息进行收集、处理、存储、分发和管理。信息栅格网络是把所有不同的信息系统部分连成一
运动目标检测是图像处理与计算机视觉领域中的一个非常活跃的分支,在视频监控和军事领域的许多方面有着广泛的应用。本文围绕压缩域中运动目标检测技术,对基于MPEG-4的单目标