基于自动搜集技术的网页数量与演化的估计方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:lau_lfm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下: ⑴建立了一个网页覆盖率评测模型。配合该模型的应用,提出了两种网页采样方法,并使用两类典型的网页权值,分别从数量和质量的角度上分析计算“天网”搜集系统的信息覆盖率。 ⑵提出了一种基于搜集过程的网页数量估计方法搜集系统在搜集中始终维护着一个不断变化的URL集合。论述了如何根据搜集过程中得到的URL来建立一个覆盖率模型,并用它来估计具有不同重要性的网页数量。 ⑶研究了增量搜集技术的相关算法和实现策略,提出了一个通用的增量搜集系统模型。 ⑷研究了中国Web网页变化的规律,同时基于增量搜集记录的网页变化轨迹提出了如何估计任何时间的网页数量的方法,并用实验进行了验证。
其他文献
近几年,随着人们对环境污染、城市应急资源调度、现代服务设施管理和城市社区功能定位等的需要不断增长,缓冲区分析在交通、林业、资源管理、城市规划、环境与生态保护等领域
集成毛细管电泳芯片具有分析速度快、样品用量少、分离效率高等诸多优点,自问世以来,就得到了人们的普遍关注。在短短十几年内,它迅速发展成为一种有效的分析检测手段,并被认为是
随着互联网技术的蓬勃发展,各类数据正在以前所未有的速度被产生,而人们收集数据的方式也是各种各样,因此,数据普遍具有规模大、结构复杂和维数高等特性,这就导致大数据存在以下问
随着社交网络的快速发展,微博已经成为人们表达个人情绪的重要场所。针对社交网络短文本的意见挖掘、情感分析受到广大学者的关注。与情感分析不同,情绪分析是针对作者本身、粒
视频监控作为一种传统视频技术与现代通信技术相结合的应用,目前在国内外已引起了越来越多的关注。在网络通信方面,由于SIP协议所具有的优势使得SIP必然成为下一代网络融合通
随着半导体工艺的越来越先进,尤其是进入到28纳米及其以下,晶体管的特征尺寸越来越小,单位面积上可以容纳的晶体管数目越来越多,芯片规模迅速增长,单个芯片上可以集成的功能也随之
虚拟现实技术作为一门在二十世纪末才兴起的崭新的信息技术,在许多不同的领域有着广泛的应用,具有极大的发展潜力和良好的发展前景。虚拟现实技术在建设数字城市、数字景区及数
随着空间应用的多样化和航天电子技术的发展,航天电子设备所产生的数据量和所需要的数据传输带宽也越来越大。为了能对飞行器下传的高速数据流进行接收处理,急需具备高速数据
Web应用框架是支持Web应用开发的重要的软件复用技术,旨在提高开发效率,增强系统的可重用性、健壮性和可伸缩性。目前的Web应用框架大都侧重于封装底层的技术细节,复用粒度较
随着虚拟样机技术和仿真工具的不断成熟,单一学科的仿真已不能满足人们对产品性能的要求,所以多学科协同仿真必然要取代单一学科的仿真。为了充分利用现有的信息资源,提高建模效