论文部分内容阅读
随着Internet的迅猛发展,Web成为了人们获取信息的重要途径。但是,网页数量的与日剧增,信息量的爆炸式增长,也为人们的信息查询带来了不便,如何快速、准确地检索到用户真正感兴趣的信息成为了目前各大搜索引擎公司不断改进技术的目标。Web数据挖掘技术的引入提高了检索质量,特别是Web结构挖掘在搜索引擎中的应用,很好地帮助用户快速地从搜索结果中锁定对自己真正有用的信息。本文研究了基于Web结构挖掘的两种经典算法PageRank和HITS。针对PageRank算法,研究了该算法的基本思想,讨论了网页的链接结构对页面PageRank值的影响,并提出相应的提升网站排名的策略。分析了PageRank算法存在的缺点,主要就其产生主题漂移的问题提出了一种基于查询主题相关性的PageRank改进算法,并通过实验数据验证算法的有效性。对于另一种搜索结果排序算法HITS,集中研究了算法的思想和实现步骤,归纳了算法的缺点,主要分析了产生主题漂移的原因,并提出了基于页面相关性的HITS改进算法,通过一组对比实验,验证了改进算法的优越性。