【摘 要】
:
由于调查受到各种已知或者未知因素的影响,往往会出现调查数据的缺失。在统计中,调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来,随着大数据时代的到来,这一问题越
论文部分内容阅读
由于调查受到各种已知或者未知因素的影响,往往会出现调查数据的缺失。在统计中,调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来,随着大数据时代的到来,这一问题越来越受到国内外学者的关注。数据缺失,尤其是高缺失率很容易引起数据本身的可用性的缺失,增加了数据分析的难度,使得统计分析出现很大的偏差,从而会降低研究者工作效率。对于含有缺失值的调查数据,事前预防是最有效的方法,即在调查过程中把无回答率降到最低,提高被调查者的回答率。但是由于各种因素的影响,现实中的无回答总是无法避免的,所以,对于调查数据无回答的事后处理显得尤为重要。调查中出现的问题不同,得到的含有缺失值的调查数据的特点也就不一样,所以采取的处理这些缺失值的方法也是不相同的。本文选取统计学上常用的缺失值插补方法,包括EM算法插补、多重插补法、回归插补法、均值插补法这四种插补方法,分别通过构建统计学模型来进一步探索这四种插补方法的插补效果。含有缺失值的数据集是利用SPSS随机生成。所研究的条件分别为:变量缺失的模式,即单一变量缺失和多变量缺失;不同的缺失率分别为10%、20%、30%、40%、50%;不同缺失率下的辅助变量的个数不同,分别为4个、7个及10个辅助变量的模拟比较分析。全文首先介绍了选题背景和研究意义,以及国内外对缺失值处理方法的文献综述和国内外文献评述。第2章介绍了缺失数据问题相关的理论,包括缺失数据产生的原因以及缺失值的缺失机制和模式。第3章详细总结了统计上常用的缺失数据插补方法。第4章利用缺失值插补常用方法对调查数据进行实证分析。利用均值插补、回归插补、EM算法、多重插补这四种插补方法,分别在单一变量缺失和多变量缺失的情况下,结合数据挖掘技术分析这些方法在不同的数据缺失率(10%、20%、30%、40%、50%)的插补效果分析。第5章是对全文的总结及展望。
其他文献
自2008年国际金融危机以来,杭州市出台了一系列以保消费促增长的行动计划,消费市场平稳上扬。2010年以后,杭州经济开始逐渐摆脱金融危机的影响,实现企稳回升,然而支持经济增
由谭试典和王冰二位地质家对重力构造的研究,提出重力侧向运动的滑动断阶、滚动背斜、掀斜断块、滑落背斜、滑覆构造、重力垂向运动的压实构造、底辟构造共7类。通过WA85—105
利益相关者对企业偿债能力的评价是公司财务分析的重要内容。但由于现有偿债能力评价指标存在诸多局限性,故文章根据偿债能力相关指标从定量视角构建了企业偿债能力综合评价
随着智能电网的建设及发展,需要大量的传感器及数据终端代替人工实现数据的采集,因此通信系统的重要性日益突出。无线通信的便捷性和低成本的特点,使得很多无线通信技术在今
以采用钢筋混凝土桥墩和钢-混凝土组合梁的组合刚构桥为研究对象,在OpenSees平台上对组合刚构桥分别进行了横桥向和顺桥向静力弹塑性分析和时程分析,评价了按一阶模态荷载进行
托马斯·哈代的《无名的裘德》是一部享誉世界的经典作品。1958年,张谷若先生的译本问世,因其高水平的翻译质量和独到的翻译技巧受到了广大读者的青睐,引起了热烈的反响。张
采用历史时间断面方法和现代空间分析方法,对中国西汉、西晋、唐代、北宋、明代、清代、现代7个时间断面的人口分布进行分析。结果发现:①中国人口疏密区的分界线就是中国农
刑法总则的修改与完善□熊选国刑法总则是关于刑法的任务、基本原则和适用范围,以及犯罪和刑罚一般原理、原则的规范体系,是定罪量刑所必须遵守的共同的规则。这次刑法修订总结
中长碳链甘油三酯主要有物理混合型(MCT/LCT)和结构脂型(STG),二者总脂肪酸组成相同,脂肪酸在甘油三酯的位置分布不同,且在消化吸收、脂质代谢和免疫炎症等方面存在差异。寿命是衡量健康的综合指标,研究表明生物体摄食的脂肪酸会影响其寿命,但脂肪酸在甘油三酯的位置分布对寿命的影响鲜有报道。秀丽隐杆线虫是研究寿命机制的理想模型。然而,秀丽隐杆线虫水溶性的培养环境使得其在评价脂质营养方面受到限制。因此
由于真三维影像数据精度高、融合性强,数字城管应用系统可以方便地实现二维矢量地图、城市街景和真三维影像数据的无缝结合和切换,利用真三维数据真实、直观、高精度的优势极