不完整大数据的分布式聚类填充算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:huoshengxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播(AP)算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于Map Reduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。
其他文献
乡镇财政风险指乡镇政府在组织收入和安排支出的过程中,由于财政制度和财政手段本身的缺陷和多种经济因素的不确定性的影响,造成乡镇财政正常支出困难,导致乡镇政府不能正常
在小区建设过程中,可以采取多种节能措施,这些节能措施可能会使建设初投资增加,但可通过建筑使用过程中节约的资金来回收初投资增加的成本。随着建筑技术的提高,各种建筑节能
便携式软体高压氧舱(portable hyperbaric oxygen chamber,简称软体氧舱)是通过空气泵快速向软体舱内充压空气或富氧混合气,患者通过面罩或自由呼吸高分压的氧气,从而缓解缺
近年来属性图聚类受到了广泛关注,其目的是将属性图中的节点划分到若干簇中,使得每一个集群都有紧密的簇内结构和均匀的属性值。现有的理论主要是假设属性图中的节点或对象是
<正> 进行爱国主义教育,是地理教学的重要任务之一.党的十一届三中全会以来,我结合“两个文明”建设,就如何在教学中广泛、正确地开展爱国主义教育,进行了一些探索,特别是近
随着风电比重的不断攀升,电网调度将面临新的困难和压力。现有电力系统调度以电源的可控性和负荷的可预测性为基础。当风电并入电网后,一方面,风电源的输出功率具有较高的随
随着社会的进步和体育产业的发展,复归自然已经成为现代体育建筑的重要发展趋势。大量新技术新材料被应用在国内外的实践探索中,其中对复归自然最有成效的是可开合屋盖结构技
股东大会的司法介入问题本质上就是司法介入公司自治的问题,主要是指法院的诉讼介入。司法介入公司自治是实践中非常难以把握的重点问题之一,但是将司法介入股东大会问题提上
众所周知,学堂乐歌是我国近现代化音乐运动的开端,对我国音乐艺术的发展具有划时代的意义,学堂乐歌的兴起,标志着中国近现代音乐教育的启蒙,许多人对学堂乐歌从不同的层面进