论文部分内容阅读
随着大数据信息时代的到来,对海量数据处理的技术要求越来越高。为了更加高效地在海量数据中发现有用的隐含信息,对作为数据处理工具的聚类分析技术的要求也越来越高,相应地,聚类分析算法作为聚类分析技术中的核心内容,也面临着越来越高的要求。目前,已有学者提出了诸多聚类算法,常规算法依据聚类思想和规则的差异或者改进,可以划分为五大类:划分聚类、层次聚类、基于密度、网格和模型的聚类算法等五种不同的聚类算法。除此此外,还有一些新型的聚类算法被提出,包括基于粒度的核聚类算法、谱聚类算法等。但是,这些聚类算法都是根据数据集的不同类型和不同需求而进行设计实现,普遍具有针对性,但同时也存在着广泛应用的局限性和单一性,即不能有效适用于现有的多元、大型数据集的聚类场景。为了能够满足多元、高维大数据集的聚类分析的需求,本文提出了具有新特性的自适应聚类弹性网络算法NAENC。围绕弹性网络求解不同类型数据集的聚类分析问题进行研究,本文主要研究内容包括:(1)设计新的数据点与弹性节点之间的数学模型关系;(2)设计具有自适应学习能力的动态参数控制策略;(3)调整弹性网络模型结构;(4)设计算法优化策略等。同时,为了验证本文提出的NAENC算法性能和优势,本文对未知聚类结果的人工随机数据集进行了测试,并与经典划分聚类算法做了聚类结果的对比分析;为验证NAENC算法的真实可靠性,本文对已知聚类结果的来自UCI(http://archive.ics.uci.edu/ml/index.php)数据库的不同大小和维度的数据集进行了测试,且与经典划分聚类算法DBSCAN做了对比分析。通过上述实验测试,对测试结果比较发现,NAENC算法的SED值降低了20%左右(本文中SED值越低说明聚类质量越高)。通过对比分析,算法聚类结果稳定,网络加快了收敛速度,大大提升了聚类质量和聚类效率,节省了时间开销和空间开销。总体而言,本文提出的NAENC算法能够克服传统聚类算法在求解大型、高维数据集等方面存在的缺点和不足,能够有效规避诸如求解质量不高、时间开销大、空间开销大、求解质量不稳定、网络收敛速度慢等算法缺陷。同时,本算法能够很好的应用在多元大数据集的聚类问题中。