基于Python的分布式信息采集发布系统设计实现

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:superzergking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年网络技术快速发展,网络已经从开始的获取信息的工具,逐渐开始融入人们生活,成为了生活的一部分。当我们饿了会想起“美团”,当我们想出行会想起“滴滴”,出差在外需要住宿会想起“去哪儿”,可以说网络已经成为了主流的信息交互方式。如何快速、有效、准确的获取网络信息,成为了一个亟待解决的问题。目前无论国家还是行业都大力支持大数据采集、分析、发布。但仅仅依靠人力收集方式不但时效性不高,而且需要过高的成本。在此背景和需求下,通过对信息采集技术的工作原理,及常用的一些爬虫框架、采集算法的深入学习和研究,在深入解析信息网站结构特点后,根据采集对象的特点,并且融合了两种算法,设计出了四种类型的采集程序,并且以Scrapy框架为基础,使用了中间件技术开发动态浏览器标识和代理池。运用My SQL数据库和云平台虚拟化技术部署了一套可靠性和可行性非常高的并行结构的分布式采集集群提高数据采集效率,运用PYQT5实现跨平台的信息发布程序,借助Selenium自动化工具解决了网站登陆、网站查询以及模拟人工进行数据采集。运用了Flask开发了数据采集管理平台和大屏展示。此外为了便于发布格式统一,系统还设计实现了数据清洗模块,包括数据清洗、格式转换、对象去除与添加等功能。本论文设计实现基于Python的分布式信息采集发布系统来采集网络信息数据并且经过分类后发布,大大减轻了相关行业信息从业人员的工作强度,为更快、更好、更便捷的获取发布信息提供技术支持。目前系统从最开始的几个采集目标到日前的数百个国内外网站,已经稳定运行一年,抓取了395万条数据信息。
其他文献
在高中物理中,虽然光学作为选修内容,但同样应该得到重视。在日常生活中光现象无处不在,学生在接受正规教育之前具有的观点和想法组成了学生的原认知结构,光现象在学生的头脑
随着航空航天、风力发电和远洋船舶等重大技术领域的迅速发展,铝合金环形零件凭借其质轻、导热性和抗蚀性优点,作为关键连接和支承构件广泛应用于风电塔筒、输气管道和储能容器等重大装备。铝合金环件传统生产工序存在工艺流程冗长、设备投资大、材料浪费严重和生产效率低等突出问题。因此课题组近年来在国家自然科学基金面上项目(No.51875383)等项目的支持下研究了一种基于铸坯的环件短流程铸辗复合成形工艺,将铸造
随着水环境保护越来越被人们所重视,在航道疏浚、河湖治理等区域,防污帘被越来越广泛地应用。防污帘通常可分为悬挂式防污帘与直立式防污帘两种形式。悬挂式防污帘因其易于施工部署与维护成为首选形式。但悬挂式防污帘常常会在水流作用下发生大变形,极其影响应用效果及工程成本。因此,悬挂式防污帘的变形特性具有非常重要的实际工程意义。为探究水流与结构互相作用下防污帘的变形问题,建立了防污帘二维数值模型。采用双向流固耦
目的:通过测定血清中某些炎症因子的含量,比较患肢肿胀及疼痛的变化趋势,探究补阳还五汤对老年肱骨近端骨折后早期炎症反应的影响。方法:纳入2019年4月至2020年3月在佛山市中医院骨七科住院治疗的老年肱骨近端骨折气虚血瘀型患者70例,按照随机数字表法分为对照组与实验组(补阳还五汤组)各35例。对照组予夹板固定患肢,外敷本院伤科黄水、口服去伤片、三七化瘀口服液,并辅以中频脉冲、红外线照射等基础治疗,实
本研究采用放电等离子烧结技术,通过加入低熔点的Cu降低烧结温度,成功在304不锈钢基体上低温烧结制备了TZM合金涂层。通过对TZM-xCu合金涂层组织结构的观察研究了合金涂层的烧结行为,分析了TZM-xCu合金涂层结合界面上的元素扩散情况,并研究了TZM-xCu合金涂层的摩擦磨损特征。为低温制备改性TZM合金涂层与应用提供实验与理论依据。主要研究内容及结论如下:(1)通过对TZM-xCu合金涂层组
目的:正畸矫治可以改善患者面部美观,恢复口领面系统的正常功能,但也会对口腔卫生及牙周组织造成不良影响。临床发现许多病人在正畸矫治结束时,牙龈仍有不同程度的炎症或者出
二硬脂酰异丙基二甲基硫酸甲酯铵(Distearoyl isopropyl dimethylammonium methyl sulfate,DIDMAMS)是一种新型改性阳离子表面活性剂,具有更好的生物可降解性、耐高温性和储存稳定性。实验发现高温时将香精小分子加入该表面活性剂体系中,会引起囊泡结构的变化,导致体系的粘度改变。因此研究香精小分子(庚烯酸烯丙酯,Allyl heptanoate,AHT;
医药工业关乎国家安全、是涉及国计民生与经济发展的战略性行业。然而,药液中可见异物的准确检测一直是行业内的难题。近些年,计算机视觉检测的快速发展,特别是深度学习在视觉检测上的迅猛发展及成功应用为药液异物运动小目标的检测提供了极大的参考价值,因此论文将研究深度学习的目标检测算法应用于药液异物小目标的检测,并探究其可行性。除此之外,论文以深度学习的目标检测算法为开端,针对药液图像中的随机噪声难以准确排除
西部山区和“一带一路”路上沿线地形地貌多样,为满足道路线形的设计要求,不少公路路段选择高架桥跨越的方案,同时沿线地震等自然灾害频发,严重威胁到桥梁工程的安全,尤其是桥梁桩基的震害没有得到充分研究。目前工程设计和规范要求对此类桩基的抗震设计并没有明确的规定。本文针对在地震作用下的山区斜坡段桥梁桩基,开展了斜坡土体震致变形特性和桩土动力响应特性的有关研究,有助于完善现有的桥梁桩基抗震设计,为今后此类工
Hardy空间的实变理论是调和分析研究的核心内容之一.本文研究了两类广义Hardy空间及相关算子的有界性.首先研究了点态各向异性Hardy空间并给出了它的径向、非切向和切向极大函数特征.然后研究了 Musielak-Orlicz型弱Hardy空间并得到了 Bochner-Riesz算子在其上的有界性.