数据挖掘中聚类方法的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:weiwei00414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大规模的、高维的数据,如何建立有效、可扩展的的聚类数据挖掘算法是数据挖掘领域的一个研究热点。围绕以上问题,本文对聚类算法进行了深入研究,主要包括以下几个方面的内容:通过对Kohonen自组织映射模型(SOFM)及其主要改进模型的分析,提出一种树形动态生长自组织模型。其网络结构在训练中动态生成,克服了SOFM网络结构固定化的限制;所生成的网络结点数目远远低于传统的SOFM及动态增长自组织映射模型(GSOM),所需训练周期少,训练效率高;用扩展因子(SF)来控制网络的生长速度,可以得到精度不同的聚类结果;由用户选取不同的SF值和输入样本集实现数据集的层次聚类。针对基于密度、基于网格聚类方法的缺陷,提出一种基于网格、密度及距离的综合聚类方法。通过仿真实验并与现有聚类算法的比较,该方法能识别任意形状、大小、不同密度的类;能有效过滤噪声数据;参数设置简单,无需预先给定聚类个数;具有近似线性时间复杂度,执行效率高,适合大规模数据的聚类问题。针对现有层次聚类方法的缺点,提出一种层次聚类方法。该方法首先采用划分方法将数据分成原子簇,然后以这些原子簇为基础,实行自底向上的层次聚类得到最终的聚类结果。其可识别任意形状、大小的类,过滤“噪声”数据;具有近似线性时间复杂度,算法执行效率高,适合大规模数据的聚类问题。将代表点思想与神经网络技术相结合,提出一种基于代表点、密度和神经网络的综合聚类方法。其首先使用代表点来描述数据空间的几何特征,然后将代表点的位置与密度信息同时作为神经网络的输入,通过网络训练得到聚类结果。该方法即继承了代表点方法聚类能力强的特点,而且由于使用了可视化SOFM(ViSOM)网络模型,聚类结果的可视性效果好。
其他文献
适用人才短缺是目前我国推进建筑产业现代化面临的主要问题,地方高校的土木工程专业建设应紧密联系行业发展前沿,为地区推进建筑产业现代化提供可靠人才支撑和智力保障。结合
指出了毛竹林是我国南方主要的可再生资源,对我国的国民经济、生态环境建设起到了重要的推动作用。但近些年来,在三明永安市经常会爆发刚竹毒蛾虫害,并成为毛竹林综合收益的
党的十九大报告提出的形成军民融合深度发展格局思想,规划了新时代军民融合深度发展的基本框架和战略目标,具有重大的理论和实践意义。必须从战略高度提高认识,全面把握目标
矿物药作为传统中药的重要组成部分,资源丰富,研究前景广阔,但是与植物药相比,矿物药的研究基础相对薄弱,进展缓慢,对矿物药建立准确、快速、简便的分析研究方法是控制矿物药