数值型大数据基于密度的聚类算法研究

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:qzx1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,数据呈现爆炸式增长,数据维度也随之增高,本文基于传统聚类算法思想,针对当今数据海量且高维的特征,在MapReduce环境下,提出一个基于密度的高维数据聚类算法,以此提高大量高维数据聚类的速度和质量。为了能更有效的对大数据聚类,本文提出两种大数据聚类算法:基于密度和信息熵的聚类算法(DBSCAN Entropy-based,ENDBSCAN)和动态确定最优聚类数量的聚类算法(The Optimal Number of Clusters ENDBSCAN,OP-ENDBSCAN)。ENDBSCAN以信息熵作为聚类时主要考虑的因素,避免传统的DBSCAN算法需要人为定义Eps(邻域半径)和Minpts(密度阈值)两个参数的缺陷。同时为了解决大数据的数据量巨大并且数据维度较高的问题,提出一个数据预处理方法,该方法利用对数据维的切分将数据分块,分块后交给不同计算机节点处理,从而尽量利用计算机节点的计算能力,提高该聚类算法的运行效率和扩展性。OP-ENDBSCAN通过对ENDBSCAN进行深入分析,发现该算法需要人为确定聚类数量的缺陷,针对这个问题,提出了动态确定最优聚类数量的算法和评价聚类质量指标,利用该算法提高聚类质量。为了进一步提高算法的运行效率,将ENDBSCAN的数据预处理阶段和合并阶段应用在MapReduce的编程模型上,从而提高了算法的运行效率。本文利用KDDCUP1999等数据集进行实验,评估所提出的算法在不同参数设置下的有效性。实验表明,ENDBSCAN相比于传统的DBSCAN具有更高的准确率和高效性,在进行聚类时,OP-ENDBSCAN较ENDBSCAN具有更高的准确性和扩展性。同时,ENDBSCAN和OP-ENDBSCAN均能够在不同规模的数据集下表现出较高的效率。
其他文献
农村承包地经营权不仅仅是一种用益物权,还是广大农民生存和发展的财产权利。开展农村承包地经营权抵押贷款业务不仅是对农村土地产权制度和土地金融制度的改革、创新和完善,
基于电子给-受单元的有机-无机光致变色杂化材料,由于其可调谐的电子转移、良好的组成和结构依赖性以及潜在的协同效应而引起了人们的极大兴趣。然而,提高光致变色材料的性能
聚磷菌能与水体中铀酰离子结合生成稳定的磷酸铀酰沉淀,能有效的吸附、降低水体中的铀,具有来源广泛,无二次污染等优势,被认为是一种廉价、对环境友好的吸附材料。为解决游离
马铁菊头蝠(Rhinolophus ferrumequinum)在欧洲处于濒危状态,现已被世界自然保护联盟(IUCN)受威胁物种红色名录列为低危/接近易危(LR/nt)种,因此对马铁菊头蝠的捕食策略研究
目的研究曲尼司特对阿霉素肾病大鼠的肾脏保护作用,并探讨其可能的机制。方法雄性SD大鼠24只,随机分为正常对照组、模型组、曲尼司特组和安博维组。采用单侧肾脏切除加尾静脉注
【摘 要】语文课前三分钟活动既能调节学生的心理环境,使学生尽快地进入到学习状态中;又能改变传统语文课堂教学的沉闷死板,增加趣味性、生动性,激发学生的学习热情,以便于学生更快地投入到学习中去;同时也能增长学生的知识、拓宽学生的视野、陶冶学生的情操等。巧妙地利用课前三分钟,可作为改进教学方式,增强学生学习兴趣,提高教学质量的一个突破口。  【关键词】课前;三分钟活动  【中图分类号】G632 【文献标