不完全数据中缺失值填充关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dgwyldgwyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论在研究领域还是工程领域,缺失数据都是一个不能忽视的严重问题。尤其随着数据收集工作从人工转向机器,数据量的急速膨胀使得各种数据质量问题混杂其中,其中数据缺失更是难以避免。不正确的度量方法、收集条件的限制、手动录入时出现遗漏或者数据违反约束等问题都可能导致数据库中的大量“空值”。美国Honeywell公司用于设备维护和测试的数据库中缺失值比例高达50%以上。这并不稀奇,在医药领域由于其不规范的数据收集方法,数据丢失率更能达到60%以上。这些缺失值不仅意味着信息空白,更重要的是它会影响后续数据挖掘和统计分析等工作的进行。一般对缺失值处理的方法包括删除不完整记录、当作特殊值处理或者插补空值。显然,插补的方法不管从量上还是质上,对数据的处理结果都要好于前两种。目前国内外已提出了很多有关缺失值填充的方法。尽管这些方法在各自的应用环境下都得到了很好的效果,但仍然存在一些不足。比如,一些模型像决策树需要指定类属性与条件属性,这样的模型每处理一个属性就要训练一次模型,效率很低。其次,很多算法对高维数据的处理能力有限,引入无用的变量不仅影响执行效率,而且会干扰最终填充效果。第三、在没有真值作为对比的情况下,无法评价不同属性的填充效果。最后,很多算法只适用于小数据集,远远无法满足目前对大量数据的处理要求。为解决上述问题,本文给出了一个基于贝叶斯网和概率推理的填充方法。与常用的贝叶斯网构建算法不同,本文针对缺失值填充这一特定的应用前提,从挖掘属性相关性入手构建网络。建立贝叶斯网时不设定任何目标属性,由影响最大的属性作为根。这一过程不需要用户对数据有太多了解,完全由算法自动完成。根据贝叶斯网自身的条件独立性假设可以分解对多维联合概率的求解,降低在处理高维数据时的复杂度。填充值根据概率推理结果得到。推理产生的概率信息能够反映填充值的不确定程度,即概率越小,准确率越低,反之,准确率越高。这就为评价填充质量提供了一个参考。为使算法适用于混合属性集,本文在贝叶斯网中加入了对连续属性的处理,所有属性的填充均在一个模型下完成。针对大数据集,应用并行技术来解决效率问题。本文给出了算法在Map-Reduce中的实现。实验部分分别验证了贝叶斯网构建算法和概率推理算法的有效性并对比分析了整个填充算法的准确率;并行处理部分给出了并行效率并分析了影响并行性能的因素。
其他文献
随着互联网技术的飞速发展,IPv4(Internet Protocol Version4)的不足对互联网发展产生的负面影响显得越来越明显。互联网发展到今天,IPv4暴露出若干问题,而其中最为显著的便是IPv4
21世纪,人类进入互联网时代,人们的生活越来越离不开网络。在网上聊天,分享心情,传递照片,进行影视创作,尤其是移动互联网出现后,网上的信息交流更成为了日常生活的一部分。
核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库,对于分析不
随着信息技术的快速发展,海量高维数据不断涌现,高维数据明显增加了计算,存储的代价,给机器学习,模式识别等提出严峻的挑战,如数据灾难。数据降维能有效地避免维数灾难,已经成为图像
海洋是全球生命支持系统的一个重要组成部分,拥有丰富的资源。图像是获取水下世界信息的重要手段之一。但是,由于水体对光的衰减和吸收,水下光电成像所获得图像的清晰度、颜色保
普适计算发展至今,已经深刻地改变了我们的生活。人们可以一边移动,一边使用便携式设备和空间中的嵌入式设备对需要的信息与计算服务进行访问。然而,当前的普适计算研究仍然未达
随着多核处理器的产生和应用,如何提升其运行效率和并行性能倍受国内外各大硬件厂商和专家学者的关注。系统性能并不能仅仅依靠硬件平台的技术进步而提升,硬件平台还需要与其搭
学位
随着计算机网络的飞速发展,现在越来越多的信息使用网络进行传输,其中不乏个人隐私、公司商业秘密及国家机密等敏感信息。因此,如何保证私密信息的安全性成为人们关心的问题,而对
传统关联分析需要处理大量的频繁项集以得到可用的关联规则。为提高规则的抽取效率,已有多种频繁项集的精简模型被提出。但是目前关于频繁精简项集的快速挖掘和处理算法的研