分布式书籍网络爬虫系统的设计与实现

被引量 : 0次 | 上传用户:shen41941395
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术高速发展,人们的生活方式也发生了改变。以往读书只能买纸质书,现在其传播媒介发生了改变,电子书很大程度上替代了纸质书。然而,互联网上书籍很多,而且增长迅速,如何从互联网中快速地选择出对自己有用的书籍尤为重要。本文设计并实现了一个基于Scrapy框架的分布式书籍网络爬虫系统DScrapy,实现了对互联网上书籍信息与书籍文件的下载,对爬取得到的数据进行分布式存储。将从互联网上爬取得到的信息存入MongoDB中,可以方便地对下载的书籍进行操作。首先,对Scrapy开源网络爬虫框架进行深入研究。针对它只能单机爬取的不足,设计了新的调度器模块替换掉原有调度器,使其可以进行主从式分布式爬取。然后设计了针对书籍爬取的流水线,其中包括书籍封面存储模块、书籍信息存储模块以及书籍文件存储模块。其次,完成了分布式书籍网络爬虫DScrapy系统的实现。在以上的设计工作基础上进行了具体代码编写与测试工作,其中包括:先确定采用Linux系统作为开发平台;网页信息提取方面使用XPath技术来实现;然后使用Redis内存数据库存储UIL队列;书籍信息存储使用MongoDB进行分布式存储;书籍文件存储则采用GridFS来实现。再次,将本系统对实际网站进行测试。测试结果表明该系统具有实用性,可以将大型爬取任务分散到各个节点,大幅度提高整个系统的爬取速度。最后,对本文的研究内容进行了总结,并展望了进一步的研究工作。
其他文献
改革开放以来,经济蓬勃发展。作为推动经济飞速前进、实现发展的主要途径,建设项目为社会主义经济事业的发展做出了杰出贡献。为更好的促进社会的进步和国民经济目标的实现,
政府新闻发言人,是适应政府公开的时代需求,是保障公众知情权的一项重要举措。虽然政府新闻发言人作为政府信息公开的一项制度在推广和建设,但是政府新闻发言人同样也是一个
近年来互联网金融蓬勃发展,而作为其中不可小觑的一支力量P2P网贷亦是风生水起,名声大噪,越来越多的机构和个人参与到其中来。P2P网贷是指个体和个体之间通过第三方中介网络
随着社会的变迁与经济的发展,民航运输在我国交通运输体系中所扮演的角色日渐重要,由于快速、远距离运输能力及高效益,民航拥有其他交通工具所不能及的重要作用,其在国家交通
本文的研究视角是跨国公司对东道国直接投资中存在的利益冲突和均衡。重点考察跨国公司在中国直接投资的实践。研究的逻辑思路如下:以跨国公司对东道国直接投资的一般范式分析
在现代电力系统中,复杂连锁故障发生的概率虽然很小,但一旦发生,就会导致电网崩溃或解列,从而导致大范围停电事故并造成重大损失。连锁故障的产生除了外界干扰及环境因素影响
<正>自从1995年首次报道本体异质结有机太阳能电池以来,在近二十年时间里,富勒烯衍生物已成为最广泛使用的电子受体,非富勒烯受体的器件效率远远低于富勒烯衍生物。而富勒烯
随着我国城市化水平的不断提高,城市规模急速扩张,城市人口快速增长,交通拥挤、环境污染、居住条件恶化等问题相继出现。现代有轨电车的兴起,对缓解城市交通负荷、完善公共交
劳动合同单方解除制度是劳动合同制度的核心内容之一,是指享有单方解除权的劳动者或用人单位,在劳动合同存续期间,单方解除劳动合同的制度。劳动合同单方解除制度使劳动者和
钛钢复合板既可充分发挥基层和覆层各自材料的优点,也是节约贵金属最好的途径,具有明显的社会效应和经济效应,值得进一步应用推广。通过分析TA2和Q235B的焊接性,论述了钛与钢