聚类算法的改进和聚类有效性指标的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:luckkycaroll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科技进步催生了数据挖掘技术,聚类分析是数据挖掘中一项关键技术。聚类分析是一种无监督学习的技术,旨在不利用外部先验信息实现对未标记数据集的分类。聚类算法是聚类分析实现的主体,K-Means算法以其实现原理简单、时间复杂度低等优点广泛应用于聚类分析领域,但其存在K值需要预先设定、初始聚类中心随机选择易陷入局部最优解等不足。密度峰值聚类算法是一种新型的聚类算法,该算法具有原理简单、实现高效等特点,引起了学术界的广泛关注。但该算法存在以下不足:(1)截断距离经验选定;(2)聚类中心点人为主观选取;(3)一步分配剩余数据样本点。聚类有效性指标是评价聚类结果的有效手段,旨在利用聚类结果内部或者外部信息对其进行评价,从而得到更好的聚类结果,目前存在许多聚类有效性指标,但大都存在稳定性差、适用范围窄等不足。针对上述不足,本文对相关算法和指标进行了深入研究,提出了相应的改进方法与措施。主要工作内容和研究结果如下:(1)提出了一种基于最大距离中位数和SSE的自适应聚类算法。该算法的主要目的在于对传统K-Means算法存在的不足进行改进,通过聚类运算过程中SSE值的变化趋势决定继续或终止运算,从而实现自动确定K值;并采用最大距离中位数方法计算获取更加准确的初始聚类中心点。通过实验进行对比,实验结果表明,本文算法在准确获取类簇个数的情况下,聚类结果准确率更高,稳定性更好。(2)提出了一种基于K近邻的自适应密度峰值聚类算法(KNN-ADPC)。首先,该算法是在K近邻算法的启发下,通过数据样本点的K近邻样本点信息,确定当前样本点的局部密度;其次引入最大最小距离的方法确定数据集类簇个数,实现对聚类中心的确定;最后对剩余样本点采用两步分配策略完成聚类运算。与DPC算法、DBSCAN算法、AP算法以及K-Means算法进行实验对比,结果表明KNN-ADPC算法获得的指标值和聚类质量更加优秀。(3)提出了一种结合类簇与样本点的新的聚类有效性指标(CPI)。通过引入簇内紧密度和簇间分离度以及样本点的类间与类内距离,利用结合比例系数将这两部分进行结合,可以更好的对数据集的结构进行识别,与5种常见的聚类有效性指标通过实验进行对比,实验结果表明CPI指标不仅评价性能更好,而且适用范围更广稳定性更高。
其他文献
随着网络通信技术的不断发展和基础设施的迅速完善,云计算和边缘计算逐渐走向成熟,这两种计算模式在处理复杂任务时各有优势,因此将云计算中心化处理和边缘计算就近处理结合的云边融合计算应运而生。然而云边融合计算在提供高效计算能力的同时,其所面临的数据安全与隐私保护问题也愈发突出。一方面,云计算部分已经成为数据挖掘的强有力保障,那么如何在数据挖掘和保护用户隐私之间进行权衡,在保证隐私信息安全的前提下获得数据
跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)是一种在没有足够的历史缺陷数据情况下建立精确预测模型的可行解决方案,因此近些年来CPDP成为了一个研究热点。尽管现有的CPDP方法已取得了不错的预测结果,但其预测性能仍有一定的提升空间。一方面,现有的大多数CPDP方法未能在减小数据分布差异的同时充分利用可用的标签信息。另一方面,近些年有相关研究工作从软件源代
目标跟踪是机器视觉中的一个重要分支,其目的是对视频中的指定目标进行跟踪。从跟踪数据集来看主要分为地面监控视频和无人机监控视频,本文考虑几种主要的无人机视频数据集和一个地面监控视频数据集。相关滤波的目标跟踪算法在视频跟踪中表现出良好的性能,其中的自适应空时感知算法是最近比较热门的模型之一。评价目标跟踪性能的两个重要指标是准确度和精确度,本文从这两个指标出发,对自适应空时感知模型进行分析和改进。为了解
语音情感识别作为情感计算的一个重要分支,因其快速、便捷、真实的特点,受到了广泛学者的深入研究。在过去的语音情感识别研究中,学者们多数使用传统的机器学习方法来进行语音情感识别的研究。然而近几年随着深度学习的火热,深度学习方法在各个领域中都表现出了优异的性能,成为其中的翘楚。本文主要工作是研究如何使用神经网络提取语音中的情感信息,选择出利于情感识别的语音特征,进而提高语音情感识别效果。主要工作如下:(
基于TCP/IP的网络由于设计之初对支持移动性考虑不足,难以适应车载高速移动环境,这成为制约车联网和车内娱乐发展的瓶颈。针对现有车载娱乐系统时延高且不稳定的问题,研究了NDN基本原理、NDN车联网应用场景、聚类划分算法、视频传输相关技术等。主要研究内容和创新点如下:(1)在深入研究NDN基本原理和车联网特性的基础上,提出了将NDN运用于车联网的构想,以替代传统基于TCP/IP体系结构的车联网。ND
随着人工智能的兴起,图像数据呈爆炸式的增长,文档文本检测已不再满足人们的日常需要,更多的将是对场景文本的进一步研究。而场景文本检测又由于其特殊性,受到诸如光照、背景复杂度、文本多样性等多种因素影响,已成为近几年研究的热点之一。目前主流检测算法主要基于深度学习的方式,针对多方向文本边框的线性特征设计且均具有较好的检测结果,但由于曲线文本自身的特殊性即对应表征方式未能实现边缘轮廓的精准定位,造成精度下
伴随着人机交互的普及,以及深度学习技术在计算机视觉领域的不断成功,基于深度神经网络的面部表情识别已经成为情感计算中的热门研究方向。在面部表情识别研究中,通常会面临三个方面的突出问题,第一方面,实际应用中图像采集设备捕捉到的人脸往往难以保证都是正脸,不可避免的会出现大量各种姿态的面部图像。然而,当前大部分的面部表情识别研究通常只针对正脸图像,当人脸姿态存在较大角度的旋转时,识别精度大幅下降。稳定可靠
“歌唱性”是音乐表演艺术必需具备的一种演奏状态,其描述的不是单纯音与音之间的连贯问题,也不是持续音之间相互连接的问题,而是情感状态的连接问题。钢琴独奏曲《松花江上》是崔世光依据原同名声乐独唱曲改编而成,作品充分利用了钢琴的优势,在保留原旋律的基础上将织体、音区、力度、和声等方面极大地扩展,强化了音乐的张力,使作品中的情感表达内涵得到丰富,“歌唱性”的表现视角得到扩充,增加了无限的艺术魅力。在长期的
机电一体化技术是一项综合性技术,涉及范围广,囊括了机械技术、计算机技术、电子技术等。在信息化技术持续发展中,人们对机电一体化技术的重视程度逐渐加深,其逐渐运用到各个领域中,为推动我国现代化建设作出了巨大贡献。本文首先对机电一体化技术及人工智能技术进行简单概述,然后探讨人工智能在机电一体化中的应用,最后展望人工智能环境下机电一体化技术的发展趋势。
近年来,随着社会技术的突飞猛进,尤其是人工智能技术的飞速发展,便捷的语音人机交互技术在文体领域的各类应用场景快速呈现。文体类应用场景中大多存在环境噪声过大的问题,严重影响实际人机语音交互的可靠性问题,该类问题统称为“鸡尾酒会问题”(Cocktail Party Problem,CPP),它一直是语音识别领域的热点研究问题之一。本文依托智能乒乓球训练项目,设计了一套智能乒乓球训练系统中的语音问答子系