数据挖掘中聚类算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:oikikukka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的主要方法之一。本文对聚类方法进行了研究,主要做了以下工作: 1.在对常用聚类算法分析的基础上,对K-均值算法进行改进。由于K-均值算法对初始值十分敏感,不同的初始化有可能导致完全不同的聚类结果。本文通过对初始聚类中心选取方法的改进,使得初始聚类中心的选取更符合数据分布的情况,有效的改善了聚类结果,而且剔除了孤立点对初始聚类中心的影响,并进行了实验仿真。实验结果表明:改进的K-均值算法比原始K.均值算法在聚类精度上有了明显的提高。 2.粒子群优化算法(简称PSO)是一种新兴的仿生学算法,因为和遗传算法有相似的全局收敛性但有更快得多的收敛速度而备受关注。本文利用PSO算法全局搜索能力较强的特点,提出了一种新的基于粒子群聚类算法,克服了传统的K-均值算法易陷入局部最优解的问题,并对粒子群聚类算法中的参数进行分析,改进了适应度函数,改进后的算法处理聚类问题相当有效,聚类质量也达到了令人满意的效果。
其他文献
【摘要】随着金属矿山开发的进行, 矿井排水量越来越大, 矿山排水节能问题也得到了重视。矿山排水量大,耗电量大,水泵功率大,水源面广层多,排水系统复杂,涌水量不均衡,变化量大,排水设备余量大,上述这些原因,为矿山排水节能提供了不少选择。本文阐述了矿山排水节能的意义和当前矿井排水系统存在的问题,提出了提高排水系统效率为主的各种排水节能措施,希望这些措施可以推广到矿山排水应用中。  【关键词】矿山;排水
期刊
在现有拟阵和模糊拟阵理论的基础上,本文主要研究了闭模糊拟阵中模糊圈的基本性质和几个充要条件,同时还给出了闭正规模糊拟阵的模糊基与特定模糊圈之间的相互转化关系。  ①
信息熵已由一百多年前的一个热力学概念逐步发展成为一个具有自己的理论、思想和方法的综合体系。把信息熵理论应用于供应链管理完全符合供应链管理和信息熵理论的特点:信息熵
中国经济快速发展,人民物质财富极大丰富,中上层阶级早已摆脱吃饱穿暖的最低要求,开始诉求更高质量的生活。同时,人们的理财意识增加,风险意识也得到加强,百姓的积蓄从储蓄逐渐转移
设HP是Hardy空间,Tψ表示H2到H2的解析Toeplitz算子。文章构造出了一类解析Toeplitz算子,重点刻画了这一类算子的换位代数。 本文包含四章。第一章,介绍本文的选题背景;第二章
【摘 要】:随着我国经济发展,公路工程也得到了很大发展,人们对公路行车安全、舒适性及行车速度等要求越来越高,相应地对公路工程路面的施工技术及质量要求也不断提高。在这种情况下,公路工程就要不断加强施工技术提高及质量控制,以确保公路工程质量能够符合相关要求本文就其进行了探讨。  【关键词】:公路工程;沥青路面;施工技术;质量控制  中图分类号:U416.217文献标识码: A 文章编号:  引言  由
期刊
电力系统负荷预测对电力系统的运行、控制和计划都有非常重要的影响,其预测精度直接影响到了电网及各发电厂的经济效益。应用神经网络进行电力负荷预测已经非常普遍。BP神经网络在应用中存在一些缺陷:BP算法收敛速度慢、易陷入局部极小值;确定神经网络结构费时费力,影响了模型的预测精度和适应性。本文提出了遗传禁忌混合算法,将该算法应用于训练神经网络,形成了遗传禁忌神经网络模型和改进的遗传禁忌神经网络模型。负荷预
通过观测人的心率变化,可以监测人的心率变异(HRV)程度。但到目前为止对人的心率分析只停留在感性的观察以及统计的分析方法上,这些方法过于粗糙,不能反映心率信号(RR序列)本