基于局部中心量度的聚类算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：zoogar002

【摘要】

：

聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。

【作者】

：

王志强

【出处】

：

华南理工大学

【发表日期】

：

2018年期

【关键词】

：

局部引力模型密度聚类算法局部中心量度 LCM聚类算法 LGC聚类算法 CLA聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。一般而言,能将无标签的样本点聚为若干个簇的算法都可以称为聚类算法,人们常根据这些算法的基本思想或基本假设将其分为几个常见的类型:分割聚类法、层次聚类法、密度聚类法、网格聚类法、模型聚类法等。该文提出了一类基于局部中心量度的聚类算法,其创造性成果主要体现在:1)首创性地提出了局部中心量度的概念。局部中心量度是衡量空间中任意点的局部中心程度的量,聚类过程中区分中心区域的点和边缘区域的点有赖于正确估计出样本点的局部中心程度。该文认为,密度聚类算法中选用的样本点密度起着局部中心量度的作用:密度高于预先设定的阈值的样本点被划分为核心区域的点,而密度低于阈值的样本点被划分为边缘区域的点,它们之间相互连接形成最终的聚类结果。经验上,样本点密度较大的区域通常是簇中心区域,而样本点密度较小的区域通常是簇边缘区域。因而,有着完善的数学理论基础的样本点密度最先成为局部中心量度被广泛应用。然而,样本点密度作为局部中心量度存在着缺陷:密度阈值难以先于经验给出,这将导致以样本点密度为局部中心量度的聚类算法对参数敏感;不同的簇可能有着相差较大的最佳阈值,这将导致以样本点密度为局部中心量度的聚类算法难以处理不平衡问题。因此,人们需要设计新的局部中心量度。2)设计了多个局部中心量度。局部中心量度的准确性直接影响到聚类结果的正确性,一个良好的局部中心量度除了能够正确反映样本点的真实局部中心程度外还需要考虑:局部中心量度的稳定性,即不论应用于何种分布的数据,区分中心区域和边缘区域的样本点的阈值相对稳定,易于算法参数的选取,降低算法对参数的敏感度;局部中心量度的健壮性,即计算结果不易受数据分布的不平衡性影响。该文分别从mean shift和局部引力模型出发,设计了稳定性和健壮性更强的局部中心量度。3)提出了局部引力模型和新的聚类算法。基于局部引力模型,该文借助不同的局部中心量度间的多样性,同时使用多个局部中心量度,提出了LGC算法和CLA算法。新提出的聚类算法具有易于调参,结果准确等特点。4)设计了适用于多性能指标体系下的非参数检验方法。衡量聚类算法性能的指标较多,常见的有RI、ARI、NMI等。多种指标之间的数值相互直接比较是没有意义的,如就算法甲的RI值和算法乙的NMI值进行直接比较是没有意义的。该文采用秩转化的方法,提出了三种不同的计算秩的方法,将不同的性能指标对应的具体数值转化为秩值,通过对秩值进行统计检验完成多性能指标的融合。

其他文献

人口老龄化背景下养老保险制度的完善

章讨论了人口老龄化背景下我国养老保险制度实施过程中存在的一些问题,如人口老化导致养老保险基金制度压力剧增,基本养老保险的统筹层析有待提高,多层次的养老保险体系需进

期刊

老龄化延迟退休养老保险基金

以疑导思,自求得之——《圆柱的表面积》“学生行为”观课报告

<正>张志英老师执教《圆柱的表面积》一课。"学生行为"观察组将所看、所想、所悟报告如下:张老师以课题质疑开课,学生在一分半钟时间内就提出了:什么是圆柱表面积?圆柱的表面

期刊

侧面积《圆柱的表面积》

中国好采购,用专业发挥更大价值——专访中国采购商学院院长宫迅伟

<正>宫迅伟,中国采购商学院院长、中国采购与供应链工作坊总教练、中国物流采购联合会原核心专家、《中国采购发展报告》编委、中国机械工程学会物流分会理事、上海管理科学

期刊

采购商采购供应链管理采购经理集团化管理供应链国际买家全球采购学院院长职业经理人

马克思的自由贸易思想探索

国际贸易是人类进行商品和服务交易的重要方式,同时也是推动人类社会前进和经济发展的核心驱动力。已有文献多是从经济学角度对国际贸易进行研究的,而对于其中相关思想从马克

学位

自由贸易自由贸易思想马克思上海自由贸易区

从日本雪印乳业看新媒体时代的企业危机公关

本文以日本奶制品行业最大的雪印乳业公司两次食品污染的危机事件为例,通过危机公关5s原则,对比其两次危机公关的处理方式、方法以及产生的效果。同时,以我国三鹿奶粉和蒙牛

期刊

危机管理新媒体危机公关

“营改增”后对单位税收筹划的思考

2016年5月，营业税改征增值税政策在我国全面实施。这一场税制改革，给单位的经济运行及纳税筹划带来了新的思考方向。本文以单位为实例，对如何在新税制下做好税收筹划工作，提高单

期刊

“营改增”税收筹划内部控制

皇竹草的综合开发利用

目前,皇竹草种植面积日益扩大,皇竹草的利用领域也越来越多。较详细地对皇竹草在各个领域的利用进行综述,以供从业者参考。

期刊

皇竹草王草综合利用

优质黑猪肉生产关键技术

目前品牌黑猪肉蓬勃兴起,但如何生产出安全优质的黑猪肉,笔者从品种杂交组合,营养调控,优质饲养、延长饲养周期,优质屠宰加工及全程冷链控制、品牌销售等多方面阐述了生产优

期刊

优质安全黑猪肉生产关键技术

颜德馨教授对老年性痴呆的中医治疗

<正> 老年性痴呆是一种进行性精神衰退的疾病,临床表现以痴呆症状最为突出,病理改变以大脑的萎缩和变性为主,临床包括老年性痴呆、早老性痴呆和脑血管性痴呆等。随着人类寿命

期刊

老年性痴呆中医治疗

慢性肾功能衰竭患者精神障碍的研究进展

慢性肾功能衰竭患者常伴精神障碍.未进行透析的患者可能出现轻度感知混乱,到谵妄、昏迷;透析本身可致3组中枢神经系统综合征:透析失衡综合征、透析性痴呆(铝性痴呆)、进行性

期刊

慢性肾功能衰竭精神障碍

基于局部中心量度的聚类算法研究

其他学术论文