基于K近邻方法的密度峰值点快速搜索聚类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:liuyuanshuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能理论和技术飞速发展,其中最重要的领域之一,数据挖掘和机器学习,正在不断地影响和改变人们的工作和生活。迄今为止,机器学习已被应用到很多的领域,例如电商的CRT预估,股票的量化交易,文本或声音信息的处理,图像识别与自动驾驶,个性化推荐等等。这些技术无疑会使我们的生活更加便捷。在众多应用领域中,聚类分析是一类重要的应用技术。2014年出现的密度峰值点快速搜索聚类算法(DPC)是一种新颖的聚类算法,它利用样本的密度和不同样本间的距离实现聚类,整个过程简单高效。但是,传统DPC算法在识别不同密度类簇、发现任意形状的类簇和噪声去除方面存在不足。本文结合K近邻法的思想,针对这两个不足,提出了两种DPC算法的改进算法。论文的主要工作如下:(1)针对传统DPC算法无法有效识别不同密度类簇的不足,利用K近邻图,提出一种基于K近邻图的密度峰值点快速搜索聚类算法(KG-DPC)。改进算法定义了一种新的密度估计函数,计算样本的K近邻样本集合与K近邻距离集合,通过给定样本的K近邻距离估计样本密度。再计算样本距离,使用决策图选择聚类中心,根据改进的样本分配法则进行聚类。最后,根据K近邻集合完成二次聚类。实验结果表明,KG-DPC算法相较于DPC算法在区分不同密度类簇方面有明显提升,在对人脸数据集聚类的实验中表示其准确率优于DPC算法。(2)针对DPC算法识别噪声数据和难以发现任意形状类簇的不足,结合K近邻方法和DBSCAN算法,提出基于噪声去除的密度峰值点快速搜索聚类算法(NR-DPC)。NR-DCP算法使用K近邻距离集合估计样本噪声指标,对数据集进行分层,选择密度较高样本。再使用噪声指标估计样本密度,计算样本距离,使用决策图选择聚类中心。最后使用DBSCAN算法策略从密度最高的聚类中心为起点扩张类簇。实验结果表明,NR-DPC算法在大多数的指标中都优于DPC算法。对文本试题数据的聚类结果显示,NR-DPC算法的准确率提升明显,具有实际应用意义。
其他文献
<正>随着人们生活节奏加快,睡眠不足已成为当今社会的普遍现象。要想改善睡眠,不妨在厨房里寻找良药。银耳具有益气清肠、安眠健胃的功效,适合上班族睡前食用。牛奶牛奶中含
期刊
在民事诉讼案件领域,由于高压触电而导致的人身损害赔偿案件作为侵权类型案件的一种,越来越受到广泛关注。通过对中国裁判文书网近些年来同类型的案例法院作出的判决情况进行
随着现代社会对网络系统依赖程度的日益增强,网络安全问题受到普遍关注。网络安全度量是指在理解网络环境的基础之上,建立合适指标体系和度量方法,评估网络的安全性。本文采
在现阶段,传统中职语文教育中的"学科本位"模式依然存在培养人才缺乏特色等不足,影响到学生能力的培养。而以能力为本位的培养思路符合新形式中职语文教学对职业能力的发展需
改革开放以来,中小微企业在市场经济的大潮中,历经艰难曲折,现已发展成为推动我国国民经济发展,促进市场繁荣和维护社会稳定的重要力量,目前,中小微企业在生产经营中面临一定
生活中,很多人都受过睡眠障碍的困扰:有的人躺在床上半个小时不能入睡;有的人一夜醒来数次;有的人半夜醒来再难入睡;还有的人睡眠多梦,醒后疲惫。这些症状都称为失眠,中医称之为“不
报纸
2012年6月11日,武汉及周边城市出现了长时间大面积灰霾天气,武汉市大气复合污染监测实验室监测到PM2.5小时浓度明显上升,峰值浓度达到658μg/m3,6月11至15日日均浓度为261μg
<正>序号:US7,377,056B2这种鞋底包括外底、鞋底座、弹性内底。沿着鞋底沿,弹性内底的前掌部位与鞋帮面的内衬缝合在一起,弹性内底的后跟部分插入到鞋跟部位的鞋底座中。
在现代汉语中,“气”是一个多义词,《汉语大词典》共列出二十九种义项。我们通过考察发现,“气”作为语素,它的构词能力也较强,粗略统计的结果,带“气”的合成词和成语就有