稀疏矩阵插补及在大型问卷调查中的应用研究

来源 :河北经贸大学 | 被引量 : 2次 | 上传用户：sdfsfd454554

【摘要】

：

自2012年以来,“大数据”一词越来越多地出现在人们的生活、工作和学习中。IBM公司曾进行过一项研究,研究结果显示从古至今我们人类世界的全部数据中有90%都产生于过去的两年

【作者】

：

高玉鹏

【出处】

：

河北经贸大学

【发表日期】

：

2017年01期

【关键词】

：

问卷分割单元缺失稀疏矩阵缺失值插补

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自2012年以来,“大数据”一词越来越多地出现在人们的生活、工作和学习中。IBM公司曾进行过一项研究,研究结果显示从古至今我们人类世界的全部数据中有90%都产生于过去的两年,并且预计2020年后全人类范畴的数据量可能会达到目前数据量的44倍。在大量数据产生及扩展的过程中不完备数据的出现是不可避免的,而不完备数据中的缺失值又往往会对数据的可利用性产生重大的影响。网络购物平台的评价系统在收集大量不完备数据上起到了很大的作用。假如所有消费者均对自己所购买到的商品进行了评价,该网络购物平台的评分系统就能够将所有评分数据收集成一个含有大量缺失值的矩阵,我们称之为“稀疏矩阵”。如果一些消费者购买了商品,却没有对商品进行评价,则会提高该稀疏矩阵的缺失率。本文根据网络购物平台评分系统和美国Netflix在线影片租赁公司影片评价系统得到的数据结构为依据,联系当前随着大数据不断发展而扩增的实践调查数据,不难发现,以往简单的小型抽样调查已经不能满足当今社会对实践调查的要求,因此无论在问卷大小还是在样本量多少上,都需要有新的突破。针对含有大量问题的问卷调查,以往的做法通常是给予被调查者一定的奖励或回馈以获得被调查者的配合,该方法不但在人力、物力及财力上需要一定的保障,而且并不能保证问卷数据的质量。本文运用问卷分割法将调查中的大型问卷按照题量及问题之间的关联性分割为多个小型问卷,在调查过程中每个被调查者从中随机抽取特定数量的小型问卷进行作答,在保证样本量的前提下,收集并整理调查数据,最终会得到一个含有大量缺失值的稀疏矩阵。进而运用缺失值插补的方式对稀疏矩阵进行插补,以获到完整的研究数据。本文通过对一般数据插补方法、稀疏矩阵数据插补方法和大型问卷缺失数据插补方法的对照,采取随机数插补和多项逻辑模型插补两种插补方式,通过对插补成效的对照分析,得出相应的结论。由于人力及时间的限制,本文数据来自于R-Studio软件的模拟。首先,运用R-Studio软件生成模拟数据,由于每位被调查者回答的数据均以“单元”为单位,因此在进行数据缺失的过程中要实现成块缺失,即单元缺失,最终的稀疏矩阵中每个被调查者都回答了特定单元数的问题;其次,利用不同被调查者共同回答的问题作为铆题,计算不同被调查者在回答同一问题时的关联性,进而利用该关联性对其他未回答数据进行插补;最后,利用插补所得的数据与原始数据进行对比,验证问卷分割法及本文所用插补方式的可行性和准确性。由于本文数据采用R-Studio软件模拟生成,因此在理论上具有一定的理想化假设,虽然每个被调查者回答问卷的单元数可以在调查过程中进行人为的控制,但被调查者回答每个单元的问题数据需假设为内部无缺失,即整个数据矩阵只有“单元”缺失,没有个别缺失。全文包括五章的内容。第一章,介绍了文章的根本内容,包括选题背景和研究目的、文献综述、研究方法及论文创新之处;第二章,是缺失数据的处理方法简介,阐述了近年来学者们研究缺失数据插补时所用到的方法及其简单概念;第三章,作为本文的核心内容,从易到难、从数据的生成到缺失,再到插补,具体介绍了大型问卷分割法及缺失数据插补方法,并将完成插补的数据与原始数据进行比较;第四章,运用第三章研究的内容及R-Studio软件生成的大型稀疏矩阵进行进一步的分析,验证本文理论和方法的可行性和准确性;第五章,是对全文的总结以及对本文所研究内容发展前景的展望,同时,对本文的不足之处提出了改进方法。

其他文献

从“说话”测试项考察衡阳方言区普通话中介语的词汇偏误现象

<正>"中介语"(interlanguage,简称IL,又译为中间语、中继语、过渡语等),指的是第二语言学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于其第一语言也不

期刊

中介语方言区普通话水平测试测试项

新时期电力企业政工工作的创新探索

电力的不断进步,对国家发展有着至关重要的作用,电力工程的崛起与国家扶持密不可分,国家扶持对电力发展有着至关重要的作用。针对于此,在本文中对新时期电力企业政工工作的创

期刊

现状方法政工工作探索经济发展

清代皖北地区洪涝灾害初步研究——兼及历史洪涝灾害等级划分的问题

本文根据档案关于1736-1911年洪涝灾害史料的记载,以州县为空间单元,对清代淮河中游皖北地区的洪涝灾害进行初步的研究。首先,从灾害学研究的角度,针对淮河流域洪涝灾害发生

期刊

灾害学研究洪涝淮河流域皖北地区1736-1911年

浅谈企业财务会计信息披露制度的完善

<正>一、企业财务会计信息披露的基本要求(一)可靠性可靠性是会计信息的基础,它要求企业披露的财务会计信息必须如实地反映企业的实际经济情况,客观地展示企业的经营状况,为

期刊

会计信息披露制度投资者债权人信息披露信息使用者增值表

综合护理干预对直肠肿瘤术患者术后早期恢复肠蠕动的效果

目的分析综合护理干预应用于直肠肿瘤术护理中对术后早期恢复肠蠕动的效果。方法分析收治的70例直肠肿瘤患者的临床资料,按照入院顺序将所有分为两组,即：观察组（35例）与对照组（35

期刊

综合护理干预直肠肿瘤术肠蠕动效果

辽代西辽河冲积平原及邻近地区的湖泊

辽代前期西辽河冲积平原上有许多较大湖泊 ,但辽代后期这些湖泊不见于记载 ,反映了辽代西辽河流域的湖泊与环境有很大变化。辽代独特的人文地理现象——“捺钵”制度 ,与西辽

期刊

西辽河流域辽代湖泊人文地理

因地制宜促进苏北高职商务英语专业毕业生就业对策解析

随着国际经济交流与合作的大力发展及苏北经济的快速崛起,苏北地区高职院校商务英语专业迎来了发展的契机。苏北高职院校应针对商务英语专业人才培养中存在的问题,充分考虑自

期刊

因地制宜苏北高职院校商务英语毕业生就业

高三艺术班的英语教学困境与应对艺术——以音乐班为例

我校是一所由师范学校转制而来、突出艺术特色的高级中学,除了开设音乐、美术和体育等多个艺术班,还有普高班和西藏班。相比普通高中,既有共性更有个性,更加需要讲究教学艺术

期刊

艺术班英语教学困境

高校生产性实训基地建设研究——以高职电子商务专业为例

校企合作,建设全功能的校内生产性实训基地,并进行日常生产经营,学生参与生产,企业人员和教师参与管理,无疑是一种比较理想的职业技术人才培养模式,它真正实现了企业、学生与

期刊

校企合作高校生产性实训基地电子商务

阵发性房颤射频消融术后复发的相关危险因素探讨

目的分析阵发性心房颤动(阵发性房颤)射频消融术后复发患者的临床特点,探讨影响阵发性房颤患者术后复发的危险因素.方法回顾分析2008年3月至2015年3月在宁夏医科大学总医院

期刊

心房颤动导管射频消融术复发危险因素

稀疏矩阵插补及在大型问卷调查中的应用研究

其他学术论文