【摘 要】
:
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web
【机 构】
:
乐山师范学院数学与信息科学学院,西南大学计算机与信息科学学院
【基金项目】
:
四川省教育厅科研基金资助项目(10ZB023)
论文部分内容阅读
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
其他文献
随着工业的快速发展和人口的日益增长,化石能源被大量的消耗,并过度排放了二氧化碳等温室气体,给全球能源储备和环境保护带来了巨大的压力。为了解决这些问题,可替代能源的探
随着U盘、移动硬盘等移动存储设备的广泛使用,带来风险也不可忽视。除了清理病毒外,NOD32还可以灵活的对优盘进行管控。随着U盘、移动硬盘等移动存储设备的广泛使用,带来风险
随着对Word文档的接触,我们不会再仅仅满足于只是把文字敲进文档,而是会对文档的样式和美观有更多的要求。在不懂得使用专业的排版工具时,我们用最简单的Word文档排版,也可以完成这些要求。Word的基本排版功能有样式、章节编号、图片和表格、页码以及页眉和页脚。对它们有一个基本的了解,加以适当的练习,以后排版文章就可以很快搞定了。 很多朋友都见到过Word的“样式与格式”功能,但是大多数朋友可能还是
现今,新科技革命引发了全球经济的变革,大力培养高素质、创新型科技人才成为各国赢得国际竞争优势的战略诉求。然而,传统以知识技能为导向的教育培养模式显然已经无法满足人
针对IEEE80211多速率无线局域网,提出一种基于门限调整的动态速率自适应媒体访问控制策略。该协议设置2组成功门限,分别对应快变和慢变2种信道情况,各组成功门限采用改进的二进