【摘 要】
:
工资性收入已经成为居民收入的主要来源,随着就业方式、收入来源越来越多元化,住户工资性收入调查困难重重,现实中住户调查存在着被调查户记账随意性大、责任心不强等现象,因
论文部分内容阅读
工资性收入已经成为居民收入的主要来源,随着就业方式、收入来源越来越多元化,住户工资性收入调查困难重重,现实中住户调查存在着被调查户记账随意性大、责任心不强等现象,因此工资收入调查数据的准确性难以得到保障,从而影响对地区人均可支配收入水平的判断,尤其是精准扶贫形式下的农村居民脱贫情况的调查。现如今,人们的生活与网络已密不可分,产生了大量的电子数据,网络爬虫是获取和收集这些数据的重要方法,而如何使网络爬虫更加满足人们的个性化需求,以及改进网络爬虫在使用中的一些不便,怎样将其应用到各个行业解决实际应用中的难题,是目前学者们的研究重点。为了解决以上问题,本文提出基于网络爬虫的住户工资调查数据准确性判别算法。首先对网络爬虫获取网络数据的技术进行了研究,介绍了网络爬虫的概念和研究背景,以及使用python网络爬虫获取网络数据的一般方法,其中着重研究了python中用于数据信息提取的re库的使用技巧。但目前网络爬虫获取网络数据技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了解决以上问题,本文提出了一套基于selenium的多线程网络数据采集算法。该算法应用了python中用于自动运行和操作浏览器的selenium库,解决了动态和静态页面数据信息的获取问题。采用无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序提高了网络爬虫速度和抓取内容准确度。基于网络数据采集算法,本文提出了两种住户工资调查数据审核方法,分别为最值判别法和“3σ”法则判别法,其中最值判别法首先获取人才市场网站中与住户相匹配工资信息(以范围的形式给出),以此得出工资范围的众数,记范围表示为(p,q)。经过对范围拆分、再计算可以得出人才市场网获取的工资数据的最值,以最值作为住户工资调查数据准确性判别标准;“3σ”法则判别法对于地区人才市场网站中有相应公司、职位招聘信息的住户,直接采用网络爬虫技术获取地区人才市场网站中目标公司、职位的工资信息,并将其作为准确性判别标准,对于没有相应公司、职位招聘信息的住户,首先采用优化决策树算法对目标人才市场网站中存在的拥有目标职位的公司进行分类,并对住户进行归类,然后采用EM算法以类别工资均值和方差的方式填补缺失公司的缺失值,最后假设每个类别中公司目标职位的工资数据服从正态分布,根据“3σ”准则得出准确性判别范围。选取某市4个行政村,采用抽样调查的方式对其中56户贫困户进行了住户调查,并对调查结果进行分析。将上述两种审核方法应用到实际的贫困户住户调查中,经比较分析可知,“3σ”法则判别法在性能上优于最值判别法,证实该方法有较强的实用性。
其他文献
火灾会让钢筋混凝土结构或构件遭受严重的损伤甚至坍塌,给国家和社会造成巨大的经济损失,给人民带来惨重伤亡伤害。因此,钢筋混凝土结构或构件在火灾(高温)下的力学性能研究
全球工业领域中化石能源的大量使用活动导致温室气体排放量的增加,由于大气污染,不可避免地影响了地球的生物圈。可再生能源是减少这些问题的最重要的解决方案之一,同时提供取决于自然成分的永久性能源。光伏系统具有其他清洁能源设备的优点,易于安装,携带和高效,并且具有适应控制器的系统动态行为。光伏系统固有的未知变化会影响整个系统的性能和效率,因此,除了可能在内部或对主网络发生的不确定性影响之外,智能控制还旨在
池式钠冷快堆是未来先进核应堆中的重要堆型之一,研究其在各类事故下的安全性是非常有意义的,但由于在大型模型中进行钠的实验是很困难的,因而数值模拟成为了一种常用的安全分析手段。不同于其他堆型,池式钠冷快堆的冷热钠池内流体的流动具有明显的三维特性,尤其是在各类瞬态工况下,会对堆内构件产生复杂的影响。但池式快堆内部结构复杂,大部分现有研究都是采用系统程序或者简化的三维模型来模拟池内流动,无法准确的模拟瞬态
我国高速公路建设里程的快速增长,缓解了经济发展给交通运输业带来的压力,但同时也给道路交通安全带来巨大挑战。近年来,我国汽车交通事故占总交通事故的比重均在65%以上,最高可达70%,研究指出,人为因素是交通事故产生的主要原因,95%的交通事故都与驾驶人的行为有关。而换道行为作为常见的驾驶行为,驾驶人不仅要注意车辆纵向运动特性和本车道前后车的运行状况,还要关注车辆的横向运动特性及其与相邻车道车辆间的交
近年来,国家对物联网产业的发展大力扶持,“互联网+”、“供给侧改革”等热门概念也对其产生正相关影响,使得国内物联网上市公司股票愈发受投资者关注和重视,其市值呈现持续
随着全民焦虑时代的到来,焦虑成为心理学研究的一个重要主题,焦虑个体的注意偏向受到越来越多研究者的关注。以往的很多研究考察焦虑个体对负性刺激的注意偏向,采用中性刺激作对比,发现焦虑个体更容易捕获负性刺激,进而对负性刺激产生注意偏向。然而,现实生活中存在各种不同的信息,有的是负性的,有的是正性的,这些信息可能单独出现,也可能同时出现。目前,焦虑个体对正性刺激是否存在注意偏向,还存在争议。焦虑个体在正性
碳纤维复合材料(Carbon Fiber Reinforced Plastic,CFRP)具有高比强度、高比模量、大阻尼比和耐疲劳等优点,由CFRP制成的传动轴特别适用于长跨距、大扭矩和高转速传动系统。
互联网的迅速发展、人们生活水平的提高以及对医疗资源的需求诞生了一大批在线健康社区。在线健康社区是用户获取健康信息和知识、进行情感交流、获取社会支持等的平台,其发展离不开用户的知识共享。而在线健康社区的用户主要以知识获取为主,知识共享情况较差,用户对健康知识分享的意愿不强,造成了在线健康社区资源的浪费,这可能导致在线健康社区运营失败。因此,本文对在线健康社区用户的知识共享行为进行研究,获得促进在线健
英国学者弗朗西斯·培根曾说过:“知识的力量不仅取决于其自身价值的大小,更取决于它是否被传播,以及被传播的深度与广度。”而架起知识与公众和社会之间的桥梁就是科普,也就是公众对科学的理解。科学普及的重点在基层,社区作为城市的最基层单位和最活跃细胞,加快推进社区科普工作,不仅是提高全民科学素质的重要途径,更是弘扬科学精神、营造科学氛围、推动创新型国家建设的重要举措。我国当前正处于社会转型的重要时期,现阶
改革开放之后,风险投资开始进入我国市场,国际金融公司(IFC)入股上海银行标志着我国私募基金开始正式开启。随着改革开放的不断深入,我国中小企业不论在规模上还是在数量上都