主题爬虫的实现及其关键技术研究

来源 :武汉理工大学 | 被引量 : 22次 | 上传用户：chaoyue0130

【摘要】

：

随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所幸搜索引擎能够为用户提供快速的信息检索,

【作者】

：

张航

【出处】

：

武汉理工大学

【发表日期】

：

2010年01期

【关键词】

：

主题爬虫搜索策略隧道现象相关度计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所幸搜索引擎能够为用户提供快速的信息检索,它被人越来越多的使用并成为日常生活中的一种依赖。网络爬虫作为搜索引擎的抓取模块,负责搜集互联网上的网页,爬虫系统的爬行性能和搜集到的网页质量很大程度上影响了搜索引擎的服务质量,所以爬虫是搜索引擎的重要组成部分,值得研究和改进。近年来,受制于网络的规模,通用爬虫的负担越来越繁重,而专注于特定领域的主题爬虫搜集的信息更有针对性,并且运行效率较高,于是得到了广泛的重视和深入的研究。主题爬虫为爬虫领域开辟了一条新的路径,具有很高的研究价值和实用价值,本文围绕设计和实现一个主题爬虫所涉及的各项技术展开讨论,所做的主要工作和研究成果包括：(1)提出和实现了一种改进的搜索策略,主要是通过动态调整阈值,使爬虫的搜索过程更有灵活性,可以有效解决主题爬虫领域的隧道现象,平衡主题爬虫的搜集覆盖率和准确率,使两者都达到较高的水平；(2)提出和实现了一种改进的相关度计算模型,主要是通过合理压缩空间向量的维度,在不丢失准确度的情况下,减少了计算的时间复杂度,可以有效提高计算速度；(3)研究了当数据规模很大时,爬虫系统如何实现URL的消重和网页的存储,前者主要是通过将索引建立成B-树的结构,从而有效的压缩了维护URL队列所需的空间,后者主要是放弃数据库的存储方式,将网页按照一定的存储格式,以文件方式予以保存,有利于数据的安全和维护；(4)研究了涉及主题爬虫领域的各项技术问题,主要有网页的获取,网页内容的分析,中文分词和搜索策略等,综合上述各方面的理论,设计和实现了个主题爬虫系统,利用该系统对搜索策略和相关度计算的改进方法进行了实验测试,数据显示上述改进方法效果良好。

其他文献

先秦神鬼艺术中的苦难美学

在中国的文化中,神鬼艺术自古而生,它作为观念,因对生命的渴望,希望能延续不灭,深深的在民众思想中扎根,成为民众思想中根深蒂固的存在物；作为行为,它至今五彩纷呈的呈现在人

学位

原始思维神鬼艺术苦难美学

C-4012产品出料罐应力分析与疲劳强度评价

产品出料罐是气相法线性低密度聚乙烯(简称LLDPE)生产装置中反应部分的重要设备,也是一种易发生安全事故的特殊设备。出料罐在较高温度下的压力循环工况是导致设备失效的主要

学位

聚乙烯出料罐有限元应力分析疲劳强度

有一种精神叫塔山

一部由中央电视台军事频道和某集团军联合制作的纪录片《塔山阻击战》再度带领我们走近塔山，走进那一段血与火铸就的英雄史诗。重温塔山精神，我们呼吸英雄的气息；重读塔山精神，我

期刊

指挥员指挥位置

基于科学精神和社会责任的主题式教学*——以“一氧化碳的科学风险”为例

为了促进学生科学精神和社会责任的培养,采用主题式教学模式和"认知—评估—决策"整体推进的教学策略重新建构了一氧化碳科学风险相关内容的教学,尝试了用价值判断的观点重新

期刊

科学精神社会责任科学风险主题式教学一氧化碳

细粒金红石矿浮选工艺研究

对重选抛尾后的金红石粗精矿进行了浮选条件实验,并在此基础上进行了闭路实验,得到的精矿品位为TTiO2 22.49%,回收率为83.52%,达到了回收金红石的目的.

期刊

金红石浮选细粒药剂制度

上帝之手——解读动画片《猫汤》的超现实主义画面语言

《猫汤》这部超现实主义风格动画片以童话讲述方式,从猫的视角来重新审视现实,是关于人类向自然索取无度招致惩罚的寓言故事。其中隐喻的成长中的暴力,以及对未来美好世界的

期刊

《猫汤》超现实主义动画片日本暴力

先秦时期“神”观念研究

“神”是中国哲学重要的范畴,许慎《说文解字》曰：“神’,天神,引出万物者也,从示,申声。”①“神”是形声字,甲骨文中只有“申”。《说文》释“申”曰：“神也。七月阴气成体,

学位

先秦鬼神神化精神气

浅谈素质教育对外语教师的要求

以培养和提高学生综合能力为主要内容的素质教育成为新世纪教育工作的首要课题。外语教学是基础教育的重要组成部分。素质教育要求外语教师提高思想素质:学会运用科学的方法,

期刊

素质教育外语教师思想素质综合能力教学方法

船舶大气污染物评价方法研究

进入21世纪,大气环境污染问题日益严重。人们越来越关注环境保护与可持续发展,人类活动所排放的气体污染物将受到严格限制。船舶作为环境友好型的运输方式存在着能耗低、效率

学位

船舶大气污染排放评价工程模糊集理论

主题爬虫的实现及其关键技术研究

其他学术论文