K-means聚类算法改进研究

来源 :中国人民公安大学 | 被引量 : 4次 | 上传用户:freezinghk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人类收集、存储、传输、处理数据的能力取得了飞速提升。人类社会的各个角落如商业、社会、科学、工程、医学以及日常生活等都积累了大量数据,亟需功能强大和通用的工具对数据进行有效地分析利用。机器学习和数据挖掘恰顺应了数据时代的这个迫切需求,取得巨大发展,受到广泛关注。聚类分析广泛应用于机器学习、数据挖掘、模式识别和图像处理等领域中,由此产生的聚类算法有很多种,其中,K-means聚类算法以其简洁高效以及适应性强等优点成为最广泛使用的聚类算法之一。然而,传统的K-means聚类算法却有两个相对突出的问题:一个是初始聚类中心的选取问题,另一个就是聚类数目k的确定问题。针对初始聚类中心的选取问题,本论文在Rahman的Sum Score算法基础上改进提出一种新的基于主成分分析(Principal Components Analysis,PCA)的K-means初始聚类中心优化算法。该方法使用主成分分析将原始多维数据降维为一维数据,接着将一维数据按升序排列,其次将排序后的一维数据分成k个子集,然后通过一维数据和多维数据的对应关系将多维数据分成k个子集且求出这k个子集的中心,最后把原始多维数据中分别距离k个子集中心最近的k个数据点作为初始聚类中心。通过在人工模拟数据集和UCI真实数据集上与其他优化算法进行比较,实验结果表明新算法能显著提高聚类质量。针对如何确定聚类数k这个问题,在基于主成分分析的K-means初始聚类中心优化算法的基础上提出一种全新的基于潜在稳定性的K-means最佳聚类数确定方法。该方法利用数据集的潜在稳定性,通过两次选取不同的初始聚类中心进行聚类,然后比较两次聚类结果的异同进而得到最佳聚类数。通过在UCI真实数据集上与基于聚类有效性内部评价指标确定最佳聚类数的方法进行对比实验,结果表明新方法更能准确地得到正确的聚类数。
其他文献
随着计算机技术的普及,信息化在企业中也来越受到关注和重视。企业日常运营离不开稳定、健全、有效的内部控制,它是企业持续经营的保证。在信息化的环境下内部控制也受到了极
从常德市城区基层青少年足球运动的开展现状、培养方式等问题进行分析研究,探索青少年足球运动在常德市的发展对策,为常德市基层青少年足球得到更好的发展提供理论依据。
印度"东向"战略中存在较少的印度"东北部"地方因素考虑,这既是由于该地区参与"东向"的意愿、能力不足,更是由于该区域在印度地缘战略排名中靠后。然而,随着印度东北部地区安
<正>"养生"一词最早出自《管子》,又见《庄子·养生主》。养,指生育、哺乳、培养、饲养、积蓄、长之义;生,指人体生命。养生,指调养人体生命,以达健康长寿的意思。中国的传统
对陶瓷材料进行了介绍,针对其促进氧化锆陶瓷在电厂除灰阀门耐磨部件制作中应用的特点,分析了电厂除灰阀门耐磨部件的加工工艺并详细描述了制作方法,利用对比的方式体现了氧
小学习作教学相较于其他语文教学任务显得更为困难,因为小学生的阅历少,且学写作文是较枯燥乏味的事情,让小学生约束自己做自己不喜欢的事情,是不现实的。因此,一线小学语文
笔者所在的青海省海西公路总段茫崖公路段单位现有在册职工95人,其中本科学历4人,仅占职工总数的4.21%;大专学历24人,占职工总数的25.26%;中专学历3人,占职工总数的3.16%;高中及
日本企业人力资源管理模式具有四大特征。中国由于民族传统文化的差异以及经济社会发展基础和发展历程的差别,形成了不同于日本企业人力资源管理模式。中日企业人力资源管理
2006年7月,全球首个微博客网站Twitter诞生之后,国内外微博客网站井喷式的涌现。人们开始用微博客进行交流沟通、获取信息,这已经成为现代人生活中的潮流和习惯。尽管微博客在中
阿尔茨海默病(Alzheimer’s disease, AD)是一种原发性中枢神经系统退行性疾病,多起病于老年期,病程缓慢且不可逆,主要以认知和记忆功能损害及日常生活能力的减退为特征。其主要