论文部分内容阅读
现有的网页数据维护算法中,"按网页变化频率更新网页"和"祛除镜像网页"是两种很好的网页数据维护方法.通过按网页变化频率类别更新网页,我们可以近似做到每次去更新变化了的网页,而不用访问没变化的网页;发现并祛除镜像网页,可以避免搜索器维护多个有相同或近似内容的网页,节约系统的存储空间,这两个方法都可以极大的减少对网站的不必要访问.对这两个方法的深入研究,我们发现存在着两个有待改进的问题.具体问题及改进算法如下:一.变化频率分类:现有的网页变化频率分类只是通过参考过去一段时间内网页是否变化这个特征来进行变化频率分类,该算法的分类时间长,且对于刚下载的网页,该方法无法分类.该文中,我们结合对网页的动静态特征、域名特征、缓存特征的分析,提出了一种改进的分类方法,使用该种方法,我们无须检查网页是否变化就可以进行变化频率分类,并且可以减小分类需要的时间,提高分类速度.二.镜像网页的祛除:即对已经发现的互为镜像的n个网页,我们应该保留哪个网页,而去掉其余n-1个网页?一般的方法是按发现顺序保留第一个,去掉其余的镜像,或是随机选取其中一个,去掉其余镜像.这些方法都没有考虑网页的重要性.该文中我们提出了一种与PageRank算法相结合的最优策略,即先计算出所有网页的PageRank值,然后对于相同的镜像保留PageRank值最高(即最重要的)的网页,祛除其余网页.使用这种方法,我们可以确保系统中维护的都是高质量的网页.最后,作为论文的一部分,我们实现了一个综合使用上述改进算法的网页搜索器,并进行了为时2个月的实验,该实验维护的网页总数为10.3万.分类过程中我们发现,使用只参考变化特征的分类方法迭代4次(每次隔10天)后网页分类趋于稳定,即一个网页在下载后经过40天才能确定其变化频率类别.使用改进的算法,刚下载的网页可以马上分类,再迭代2次后网页分类趋于稳定,即一个网页在下载后经过20天就能确定其频率类别.这就说明了新的分类方法可以减小分类需要的时间,提高分类速度.