论文部分内容阅读
本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下:
⑴建立了一个网页覆盖率评测模型。配合该模型的应用,提出了两种网页采样方法,并使用两类典型的网页权值,分别从数量和质量的角度上分析计算“天网”搜集系统的信息覆盖率。
⑵提出了一种基于搜集过程的网页数量估计方法搜集系统在搜集中始终维护着一个不断变化的URL集合。论述了如何根据搜集过程中得到的URL来建立一个覆盖率模型,并用它来估计具有不同重要性的网页数量。
⑶研究了增量搜集技术的相关算法和实现策略,提出了一个通用的增量搜集系统模型。
⑷研究了中国Web网页变化的规律,同时基于增量搜集记录的网页变化轨迹提出了如何估计任何时间的网页数量的方法,并用实验进行了验证。