基于ε_o-领域搜索策略的K-medoids聚类算法研究及其应用

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:gaccia_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展和人类的需求不断扩张,产生了大量的数据,从而迎来了大数据时代。为了从海量数据中挖掘出对人类有用的知识或有价值的信息,数据挖掘技术应运而生。聚类分析作为数据挖掘的一个重要研究分支,旨在通过分析数据对象间的相似性把数据划分成有意义的簇。K-medoids算法基于划分方法的经典聚类算法之一,其对孤立点和含“噪声”数据不敏感,具有较好的稳定性,所以得到广泛的应用。但是传统K-medoids聚类算法对随机选择的初始中心点敏感,收敛速度较慢以及准确率不够高。那么,针对传统K-medoids聚类算法以上缺点,本文提出一种可行的改进算法来克服其缺点。本文主要研究工作如下:为了解决传统K-medoids聚类算法对初始中心点敏感的问题,本文首先利用密度思想为数据集中每个对象建立一个ε0-领域,利用最大最小距离法遴选出K个密度大且距离较远的ε0-领域,把对应的ε0-领域的核心对象作为聚类算法的K个初始中心点;然后,为了解决传统K-medoids聚类算法的迭代次数较高、全局搜索的盲目性,在获取有效初始中心点的前提下,提出了以初始中心点为核心进行ε0-领域搜索更新策略,以此来减少聚类算法的中心点更新迭代次数;同时,为了解决传统K-medoids聚类算法聚类准确率较低等缺点,提出了赋予簇内距离和簇间距离不同权重的准则函数,增强聚类算法的评价标准。改进后的算法在Iris和Wine数据集上进行测试,实验结果表明初始中心点分别位于不同的簇中,降低了算法的迭代次数,提高了聚类准确率。最后,我们将本文改进后的算法应用的到入侵检测系统中,获取了较理想的结果,进一步证明了本文算法的有效性和优越性。
其他文献
近年来,人们越来越关注空气质量,因为它直接影响人们的健康和日常生活。有效的空气质量预测已成为研究的热点之一。在现代社会中,空气污染是一个重要的话题,因为这种污染严重影响人类健康和环境。在空气污染物中,颗粒物(PM2.5)由直径等于或小于2.5 μm的悬浮颗粒组成。PM2.5的来源可能是燃煤发电,烟雾或粉尘。空气中的这些悬浮颗粒会损害人体的呼吸系统和心血管系统,从而可能进一步导致其他疾病,例如哮喘,
本文是人类学著作《蒙古文化区的时间,因果和预言》第五章“追忆逝去的未来:口头预言与世俗预言家的财富”的英译汉翻译实践报告。在每一种文化中,都存在著名的预言家以及预
在伺服控制领域中,随着控制技术和电力电子技术的发展,交流伺服控制技术在日常生产生活和工业生产制造中的应用越来越广泛,如家用电器中的空调,工业生产中的机床、机器人等。
随着我国保险市场的飞速发展,我国的偿付能力制度也紧跟着时代的前进步伐。2012年初,保监会启动了中国风险导向偿付能力体系的建设计划。经过保监会及中国保险行业三年的不懈
口译是一项实践性很强的工作。对于口译专业的学生来说,参加口译实践并在理论指导下对口译实践进行总结,无疑是很有现实意义的。本文是一篇交替传译实践报告。2016年笔者应邀
本论文是以笔者亲自参加的“2016时尚系统设计”学术交流欢迎会的口译实践为研究对象,论文完成形式为口译实践报告。口译实践内容是笔者负责的意大利米兰理工大学设计学院院
《中华人民共和国预算法》(2014年修正)自2015年1月1日施行以来,不仅从技术操作层面确立了全口径预算、跨年度预算平衡等机制,对我国政府预算行为进行了细致规范,更从法律责
信贷业务是辽宁省农村信用社重要的金融服务之一,对农信社的可持续发展有着不可低估的作用。近年来,辽宁省农村经济快速稳定地发展,信贷业务也不断扩展,由于信贷业务产生的基
随着建筑行业的快速发展,高处作业的施工风险评价与安全管理已成为当下的研究热点。由于其施工环境复杂性,且施工过程涉及施工、监理等多方主体单位,造成高处作业不确定风险因素众多。因此,高处作业为建筑业事故发生的主要作业类型之一,由此导致的伤亡事故占建筑事故总数的60%以上。如何对高处作业风险因素进行度量,实现高处作业的安全施工,对于解决高处作业的安全生产问题具有重要的指导意义。本文以建筑项目高处作业为研
随着中国经济进入新常态,市场在资源配置中的决定性作用,逐步在更大程度、更广范围上充分发挥,经济市场化程度进一步加深,位于产需之间的物资流通企业面临更加严峻的市场竞争