基于密度的模糊聚类分析算法研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:qg101213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是无监督模式识别的一个重要分支,作为一个重要的数据挖掘工具已经广泛应用于多个领域。它是把一个没有类别标记的数据集按照某种准则聚为若干类,使相似的数据集尽可能归于一类,不相似的数据集划分到不同的类中的一个过程。现实生活中存在的大量不确定性和模糊性的问题,所以产生了模糊聚类分析。模糊聚类分析已发展成聚类分析中一个十分活跃的研究领域,并在众多领域得到了成功的应用,如分类学、地质学、金融业、市场营销、模式识别和图像分割等领域。因此,模糊聚类分析具有十分广阔的研究与应用空间。本文研究的内容包括以下两个方面:(1)在对基于目标函数的模糊C均值聚类算法FCM(Fuzzy C-Means)研究的基础上,针对模糊C均值聚类算法在初始簇中心选择方面存在的问题进行了改进。因为模糊C均值聚类算法对初始聚类中心有很强的依赖性,所以快速准确找到初始聚类簇中心就能得到理想的聚类结果。传统的模糊C均值聚类算法是随机选取选初始聚类中心,得到的聚类结果有随机性。本文提出了用高斯密度函数计算初始聚类中心。计算方法是:以数据空间中数据点间的最大距离DMax/C为约束条件,选取密度值最大的前C个点作为初始聚类中心,进行FCM算法聚类。实验表明,与随机选取初始聚类中心相比改进算法计算出的初始聚类中心更接近真实聚类中心。(2)基于密度函数加权的模糊C均值聚类算法(DFCM)的设计与实现:根据数据的自然分布特征(有的数据点周围的数据点多,该点的密度大;相反,有的数据点周围的数据点少,该点的密度小),通过计算每个数据对象的高斯密度函数值并将其归一化处理作为权值,加入传统的模糊C均值算法中,得到基于密度函数加权的模糊C均值算法,这样能更合理地发现数据集的自然结构,克服了只是根据数据点间距离确定其隶属度的不足。DFCM算法使用java语言编写,通过使用仿真二维数据集,UCI数据集中的IRIS数据集和高维数据集wine数据集,对改进算法(DFCM)行了测试,实验表明改进算法确定出的数据点对簇的隶属度变化能够更有效地反映出数据点的分布特征,即在密度大、数据点多的簇中数据点的隶属度高,密度大、数据点少的簇中数据点的隶属度值相对较小,密度小、数据点少的簇中数据点的隶属度值更小。因此,通过合理选取隶属度阈值能够有效地区分出客观存在的簇和噪声数据点。
其他文献
目前,越来越多的云计算平台采用了虚拟化技术,随着云计算平台的不断扩展,虚拟化网络的易用性和安全性日益成为研究的重点。由于Xen环境下的虚拟网络相对简单,仅仅是借助Linux
企业运营评价是对企业现阶段和未来发展的评估,是市场监管部门的监管工具。企业评价结果给银行、投资者等提供了必要的参考信息。现阶段企业评价的方法存在着重财务轻整体发展
纹理分析是指通过一定的图像处理技术提取出纹理特征参数,从而获得纹理的定性描述的过程。近年来,基于局部二进制模式(local binary patterns,LBP)的纹理分析方法凭借其简单的结
科学计算可视化是1987年提出并发展起来的一项新技术,它应用计算机图形学及图像处理等技术将科学计算与工程测量中产生的数据转换成图形或图像,以直观的形式在屏幕上显示出来
复杂网络理论有助于理解研究对象间复杂的拓扑关系和动力学行为,其在互联网、社会学、生物学等研究领域中发挥了重要作用。复杂网络的聚类分析是复杂网络研究的一个重要方面,对
基因调控网络(Gene Regulatory Networks,GRN)是表示基因之间复杂的调控关系的网络,基因间相互的调控关系影响着生物体的各种生理活动和动作。基因调控网络的研究从基因间的相
在过去的几十年中,关系型数据库提供了完善和成熟的管理功能,然而随着Web2.0和大数据应用的不断落地,日益增长的互联网应用要求对海量规模及多类型数据进行有效管理,同时对系
随着教育体制的不断改革,继续教育的发展规模日益壮大。但与其相对应的信息管理建设还处于相对滞后的状态,开发安全易用的基于WEB的信息管理系统已成为继续教育管理进程中亟待
在信息技术迅猛发展的今天,各行各业在使用信息管理系统的过程中收集了大量数据。这些数据中有不少数据项涉及个人或公司的隐私,隐私泄露成为这些数据收集发布过程中不可避免的
视频序列中的运动目标的检测与跟踪是智能视频监控系统中最基础的两项核心技术,它们是视频监控技术智能化和实时应用的关键,也是计算机视觉方向的研究热点。在运动目标检测与