基于自动搜集技术的网页数量与演化的估计方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：lau_lfm

【摘要】

：

本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下： ⑴建立了一个网页覆盖率评测模型。配合该模型的应用，提出了两种网页采样方法，并使用两

【作者】

：

孟涛

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

网络服务信息检索网页搜集数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下： ⑴建立了一个网页覆盖率评测模型。配合该模型的应用，提出了两种网页采样方法，并使用两类典型的网页权值，分别从数量和质量的角度上分析计算“天网”搜集系统的信息覆盖率。 ⑵提出了一种基于搜集过程的网页数量估计方法搜集系统在搜集中始终维护着一个不断变化的URL集合。论述了如何根据搜集过程中得到的URL来建立一个覆盖率模型，并用它来估计具有不同重要性的网页数量。 ⑶研究了增量搜集技术的相关算法和实现策略，提出了一个通用的增量搜集系统模型。 ⑷研究了中国Web网页变化的规律，同时基于增量搜集记录的网页变化轨迹提出了如何估计任何时间的网页数量的方法，并用实验进行了验证。

其他文献

基于栅格游程与边界矢量的缓冲区算法研究与实现

近几年,随着人们对环境污染、城市应急资源调度、现代服务设施管理和城市社区功能定位等的需要不断增长,缓冲区分析在交通、林业、资源管理、城市规划、环境与生态保护等领域

学位

织女星地理信息系统缓冲区分析栅格矢量化平面扫描法凸角圆弧法栅矢结合

基于ARM和DSP的嵌入式ICE芯片扫描分析系统

集成毛细管电泳芯片具有分析速度快、样品用量少、分离效率高等诸多优点，自问世以来，就得到了人们的普遍关注。在短短十几年内，它迅速发展成为一种有效的分析检测手段，并被认为是

学位

生化分析毛细管电泳芯片荧光信号图像

基于自编码和正逼近的特征学习算法研究

随着互联网技术的蓬勃发展，各类数据正在以前所未有的速度被产生，而人们收集数据的方式也是各种各样，因此，数据普遍具有规模大、结构复杂和维数高等特性，这就导致大数据存在以下问

学位

数据收集多源迁移学习自动编码器技术特征学习算法类标信息

融合情绪知识库的多策略中文微博情绪分析

随着社交网络的快速发展，微博已经成为人们表达个人情绪的重要场所。针对社交网络短文本的意见挖掘、情感分析受到广大学者的关注。与情感分析不同，情绪分析是针对作者本身、粒

学位

社交网络中文微博情绪特征多策略分类算法

支持组播的SIP视频监控服务器设计与实现

视频监控作为一种传统视频技术与现代通信技术相结合的应用,目前在国内外已引起了越来越多的关注。在网络通信方面,由于SIP协议所具有的优势使得SIP必然成为下一代网络融合通

学位

IP组播SIP视频监控服务器用户代理UAMPEG

基于28纳米工艺的ARMv8 SMT4处理器的物理设计

随着半导体工艺的越来越先进，尤其是进入到28纳米及其以下，晶体管的特征尺寸越来越小，单位面积上可以容纳的晶体管数目越来越多，芯片规模迅速增长，单个芯片上可以集成的功能也随之

学位

半导体晶体管纳米工艺处理器芯片设计

基于VRML三维交互式虚拟校园的研究与应用

虚拟现实技术作为一门在二十世纪末才兴起的崭新的信息技术，在许多不同的领域有着广泛的应用，具有极大的发展潜力和良好的发展前景。虚拟现实技术在建设数字城市、数字景区及数

学位

虚拟校园虚拟校园软件设计软件设计三维交互技术三维交互技术

基于PCI总线IP核的高速数据传输测试系统的设计与实现

随着空间应用的多样化和航天电子技术的发展,航天电子设备所产生的数据量和所需要的数据传输带宽也越来越大。为了能对飞行器下传的高速数据流进行接收处理,急需具备高速数据

学位

PCI总线IP核FPGA高速数据传输

StrutsX——一种面向高层复用的Web应用框架的设计、实现与应用

Web应用框架是支持Web应用开发的重要的软件复用技术,旨在提高开发效率,增强系统的可重用性、健壮性和可伸缩性。目前的Web应用框架大都侧重于封装底层的技术细节,复用粒度较

学位

软件复用Web应用框架Web应用开发平台

基于传统仿真工具SIMULINK的HLA兼容性研究

随着虚拟样机技术和仿真工具的不断成熟，单一学科的仿真已不能满足人们对产品性能的要求，所以多学科协同仿真必然要取代单一学科的仿真。为了充分利用现有的信息资源，提高建模效

学位

SIMULINK模型HLA联邦成员多学科协同仿真C代码VC++开发环境

基于自动搜集技术的网页数量与演化的估计方法研究

与本文相关的学术论文