网页搜索器中网页数据维护算法的研究与改进

来源 :中山大学 | 被引量 : 0次 | 上传用户:cqcqtc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的网页数据维护算法中,"按网页变化频率更新网页"和"祛除镜像网页"是两种很好的网页数据维护方法.通过按网页变化频率类别更新网页,我们可以近似做到每次去更新变化了的网页,而不用访问没变化的网页;发现并祛除镜像网页,可以避免搜索器维护多个有相同或近似内容的网页,节约系统的存储空间,这两个方法都可以极大的减少对网站的不必要访问.对这两个方法的深入研究,我们发现存在着两个有待改进的问题.具体问题及改进算法如下:一.变化频率分类:现有的网页变化频率分类只是通过参考过去一段时间内网页是否变化这个特征来进行变化频率分类,该算法的分类时间长,且对于刚下载的网页,该方法无法分类.该文中,我们结合对网页的动静态特征、域名特征、缓存特征的分析,提出了一种改进的分类方法,使用该种方法,我们无须检查网页是否变化就可以进行变化频率分类,并且可以减小分类需要的时间,提高分类速度.二.镜像网页的祛除:即对已经发现的互为镜像的n个网页,我们应该保留哪个网页,而去掉其余n-1个网页?一般的方法是按发现顺序保留第一个,去掉其余的镜像,或是随机选取其中一个,去掉其余镜像.这些方法都没有考虑网页的重要性.该文中我们提出了一种与PageRank算法相结合的最优策略,即先计算出所有网页的PageRank值,然后对于相同的镜像保留PageRank值最高(即最重要的)的网页,祛除其余网页.使用这种方法,我们可以确保系统中维护的都是高质量的网页.最后,作为论文的一部分,我们实现了一个综合使用上述改进算法的网页搜索器,并进行了为时2个月的实验,该实验维护的网页总数为10.3万.分类过程中我们发现,使用只参考变化特征的分类方法迭代4次(每次隔10天)后网页分类趋于稳定,即一个网页在下载后经过40天才能确定其变化频率类别.使用改进的算法,刚下载的网页可以马上分类,再迭代2次后网页分类趋于稳定,即一个网页在下载后经过20天就能确定其频率类别.这就说明了新的分类方法可以减小分类需要的时间,提高分类速度.
其他文献
20世纪70年代初,Holland首先提出了遗传算法.由于遗传算法是全新的模拟生物演化的仿生优化算法以及遗传算法既适合无表达又适合有表达的任何类函数,因此己成为许多学科共同关
近年来兴起的面向对象的思想对计算机和各个应用领域都产生了广泛而深远的影响,面向对象的地理信息系统(Object-Oriented GIS)也成为GIS领域的一个重要研究课题。 本论文采
元数据一直被认为是联机分析(Online Analytical Processing, OLAP)服务器成功的关键因素。它是提高使用、开发、维护和管理OLAP服务器效率的最重要驱动力。课题探讨了OLAP服
随着分布式实时系统应用的日益广泛,不同时间约束实时任务并存的情况给系统的调度机制带来了新的需求和挑战;而目前主要的实时中间件的调度模型针对性较强,不适用于这种情况。本
随着网络技术和通信技术的不断发展,越来越多的人希望能够摆脱时间和空间的限制,随时随地访问因特网,但传统的TCP/IP协议由于自身的种种限制无法完成移动中的不间断通信。为
事件中间件为网络应用提供了基于事件的松耦合通信机制。通过事件中间件进行集成的网络应用组件不需要通过全局唯一的标识符进行标识,组件之间的交互通过事件中间件进行。组
该文针对离散细分方法进行了研究,并在骨骼动画中进行了应用.计算机动画是计算机图形学和艺术相结合的产物,是伴随着计算机硬件和图形算法高速发展起来的.而骨骼动画是计算机
软件演化分析能帮助我们理解和认识软件结构的变化过程,指导我们对软件进行重构和维护。研究表明,软件网络具备小世界特征和无尺度特征,是一种典型的复杂网络。利用复杂网络
随着Internet的迅速发展,接入Internet的设备和使用Internet的用户日益增多,如何更好地共享网络资源成为业界关心的热点,网格技术的产生对共享资源提出了新的观点和看法。论
CORBA(Common Object Request Broker Architecture)作为一种得到人们普遍认可的中间件技术,被广泛用于分布式系统的开发和集成。为了提升基于CORBA的分布式系统的性能,有必