论文部分内容阅读
伴随着互联网的信息资源越来越丰富,如何准确、细致地获得所需的专业信息资源就显得越来越重要。网页排序技术使得权威重要的信息资源优先提供给用户,使得用户提高了工作和学习的效率。网站是同种主题、相似内容的网页集合。相比网页,网站能够提供给用户更集中、更全面的信息资源.因此,网站排序被人们逐渐重视起来。如何将网站分类使得信息专业化并进行科学地、权威地排序,是本文研究的主要内容。本文首先研究了网站按照专业领域进行分类的方法。通过分析网站的特征及其表达方式和提取方法,结合SVM对网站进行了分类。网站分类可以满足用户对信息资源的领域化、专业化的需求。本文还对网站的流量等参数、网站流量的产生方式与网站权重的关系进行了详细地、系统地分析,结合其他相关技术,提出了两种基于流量分析的网站排序的方法。第一种是基于流量变化的网站排序方法。本文对网站流量等相关参数进行了定义,并分析其内在联系。根据网站流量、网站流量依赖率、网站访问量、网站点击率等参数设计了基于流量变化的网站排序计算公式。该方法考虑了用户访问网站方式的差别对网站权威性和重要性的影响,比直接利用网站流量进行排序的方法更具真实性、科学性和有效性。第二种方法是基于FlowRank的网站排序方法。本文对PageRank算法进行了详细的分析,在此基础上提出了FlowRank的专业网站排序方法。该方法将PageRank静态地考虑互联网间的链接关系的方式,改变为动态地考虑互联网间的流量关系的方式,考虑到了互联网间链接的真实有效性,具有更好的真实性、防作弊性。本文最后给出了基于流量分析的专业网站排序系统,对系统的框架进行了介绍,并在系统中对本文的网站排序方法进行了实验。实验结果表明,相对于其他的网站排序方法,本文提出的方法能够更准确、更权威地对网站进行排序,也更好地满足用户工作和学习中对信息资源的专业化、领域化合集中化的需求。