基于Map-Reduce的大数据缺失值填充算法

来源 :第30届中国数据库学术会议 | 被引量 : 0次 | 上传用户:zhqs1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成,为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
其他文献
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素,当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划
会议
站立,是教师的职业性特点。在站时,整个身体要落在双下肢上,重力由脊柱传递到腰骶关节——骨盆——双髋——双膝——双踝——足底,为了保持其稳定性,这些关节周围的有关肌肉
随着海量数据呈现几何式增长的趋势,云环境中数据管理系统得以快速发展,同时也对其中的索引机制提出更高的要求.云环境中传统的辅助索引创建机制在一些查询需求下存在不必要
会议
为人父母者在怀着期待与喜悦的心情,迎接孩子诞生的同时,也迎接着将会持续一二十年来自孩子的挑战。孩子要吃要喝,会哭会闹,有个性有脾气,在成长过程的不同时期,又会有不同
住院许多人,甚至是比较成熟的人对住医院来说都感觉是一件可怕的事。当前的医疗机构是综合性的,一般人对它并不十分理解。病人对住医院的情况是陌生的或者一知半解。医院的
Ⅱ、低压反渗透去除水中铁的卫生学评价本文探讨了低压卷式渗透去除水中铁的性能,并进行了卫生学评价。实验原水取自来水10升,用l∶1盐酸调节水pH,然后加入硫酸亚铁胺0.357
云计算环境中数据中心能耗问题已经引起广泛关注,从绿色节能的角度考虑摆放云平台中的数据、调度云平台中节点的方法,成为非常重要的问题.现有的节点调度策略并不能在云计算
会议
随着信息爆炸式地增长,以高技、合理使用存储资源为目的的数据分级存储管理已然成为存储领域的研究热点.但是,数据分级存储管理过程中存在热点数据定位不准确的问题,主要原因
会议
看书时间不宜过长孩子在家中学习,室内照明要好,不要睡在床上看书。一般说,阅读四、五十分钟就要休息片刻。要极目远望,或到室外活动活动。孩子看小人书,不要连续看得时间过
围产期医学是70年代以来发展较为迅速的一门边缘学科,我国亦已日益被人们所重视。国际上把围产儿死亡率已被用来衡量一个国家和一个地区的文化、经济发展水平的重要标志之一