【摘 要】
:
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先
【机 构】
:
北京邮电大学网络与交换技术国家重点实验室,东信北邮信息技术有限公司
论文部分内容阅读
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
其他文献
介绍了基于现场可编程门阵列(FPGA)的以太网MAC子层协议的硬件实现方法。硬件结构上由控制模块、发送模块和接收模块3个部分组成,发送模块和接收模块采用状态机控制数据发送和
给出了带电粒子在任意一个均匀静电磁场中的运动方程 ,并依据此结果 ,讨论了几种典型情况
提出一种新的可用于说话人识别的径向基函数网络(RBFN)阵列.RBFN网设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最优权重,该方法并不能得到最优分类效果.使用Fisher目标函数,替代RBF中的误差目标函数来求取最优权重,用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法提高了RBF分类能力,比传统的RBF算法以及ROLS算法具有更高的识别率,并在识别效果
给出二次矩阵方程Q(X)=AX 2+BX+C=0的最大解和最小解存在的充分条件,并且讨论了二次λ-矩阵多项式Q(λ)=λ 2A+λB+C特征值的性质.
以主流FPGA为平台设计了一个可重构处理器.该处理器在与现有处理器内核全兼容的基础上,把指令总线和数据总线作为可重构部件的扩展接口,具有简单可靠的部件指令扩展规则、数据通