论文部分内容阅读
随着存储成本的降低,海量数据不断涌现,大型数据库越来越多,数据挖掘技术备受众多领域的关注。聚类技术作为数据挖掘的主要任务之一,在没有先验信息的情况下,从海量数据中挖掘出潜在的价值信息,为企业和政府决策提供了有效的依据。近邻传播聚类算法(Affinity Propagation,AP)作为无监督学习领域极具竞争力的聚类分析技术,已经被广泛应用到很多领域。尽管如此,AP算法还有许多不足之处,本文针对AP算法在构造相似度矩阵时对复杂结构数据敏感因而聚类效果不理想的缺陷,提出一种基于密度调整和流形距离的近邻传播算法。该算法将“领域密度”和“流形理论”的思想引入近邻传播算法,利用基于密度调整和流形的距离更好地刻画了样本空间的真实分布状况,解决了相似度矩阵不能充分表示数据之间内在关系的问题,在一定程度上提高了近邻传播聚类算法的聚类效果。本文通过在人工数据集和标准数据集上进行实验对比,验证了算法的有效性和优越性。除此之外,本文构建了一个农业干旱等级评价模型,将改进后的近邻传播算法结合半监督学习思想构建一个分类模型。在对研究对象进行分析后选择9个农业干旱等级评价指标,选择皖北地区农业干旱数据作为样本,通过与BP神经网络模型对比证明了本文模型在一定程度上提高了农业干旱等级评价的准确率。