论文部分内容阅读
Internet是一个巨大、分布广泛、全球性的信息服务中心,它提供了各种各样的信息服务。与此同时,如何从Internet所提供的浩如烟海的信息中获取所需信息或是从中提取有用知识便成为一个急需解决的问题。搜索引擎是目前最主要的Web检索工具,然而搜索引擎返回的文档质量参差不齐,难以满足用户对高质量检索结果的需求。将传统的数据挖掘技术和Web结合起来,进行Web挖掘成为解决这一问题的重要途径。结构挖掘是Web挖掘的一个重要方面,研究表明Web上的链接结构含有非常丰富和重要的信息,链接分析技术已经被成功的用于分析Web超链接数据来确定权威信息源。在各种对网页进行链接分析并提取主题的算法中,HITS(Hyperlink-Induced Topic Search)算法是最典型的。通过对HITS算法的深入研究发现,该算法存在一定的不足。HITS算法在扩展根集阶段对页面的不合理选取导致无效链接过多,直接影响最终权威信息源的质量;给不同的Web站点作者规定了不平等的影响权重,导致了链接间不合理的相互加强关系;Web链接结构的自组织性导致迭代分析往往收敛于链接结构图中与查询主题不太相关的紧密连接区域(TKC),从而导致主题偏移。针对以上不足,本文提出了一种结合内容分析与链接分析的主题精选算法——W-HITS算法,并开发了实验系统,对该算法进行了验证,通过对实验结果的分析讨论证明改进后的算法较原算法更合理有效。本文的主要贡献有以下几点:(1)提出了更有效的获取基集的方法,赋予了文档作者间平等的影响权重,使精选出的权威和中心网页更为客观合理;(2)通过内容分析给信息源赋予了主题相关度权重,并运用加权的I/O操作进行链接分析,使主题相关度较高的信息源得到较高的排序分值;(3)对主题相关度很低的信息源进行修剪,排除他们对排序分值计算的干扰,进一步保证了主题精选结果是真正的查询主题下的权威/中心源;(4)提出了验证该算法有效性的实验方案,并开发了实验系统,对该算法进行了验证,并对实验结果进行了分析讨论。