论文部分内容阅读
随着互联网信息技术的快速发展,大数据时代的来临使社会各行业的数据规模和复杂性都呈现爆炸式的增长,海量数据的产生促使人们利用数据挖掘技术对数据进行分析处理,从而获得数据背后有价值的信息。吸引子传播聚类算法(Affinity Propagation,AP)是由美国计算机领域两位学者在国际知名杂志《科学》上提出的一种非监督聚类算法。该算法收敛速度快并在实际应用中也获得较好的效果。尽管如此,算法本身仍存在一些问题:(1)AP算法在面对维度较高的数据时,由于高维数据的复杂使算法在分析数据的聚类结构时面对很大挑战,同时维数灾难使算法运行速度大大降低,以上因素导致算法难以得到合理的聚类结果。(2)AP算法对数据结构的选取有一定要求,在处理超球形数据时,算法的聚类性能较好,但在面对结构松散的数据集时,算法倾向于产生较多的类,导致聚类效果不佳。因此,对吸引子传播聚类算法进行理论改进和应用研究具有重要意义。本文主要研究内容如下:(1)针对吸引子传播聚类算法难以处理高维数据的聚类问题,提出基于局部保持投影的半监督吸引子传播聚类算法(Semi-supervised Affinity Propagation Clustering Algorithm Based on Locality Preserving Projections,LPP-SAP)。该算法通过局部保持投影算法将高维数据映射到低维空间,在此基础上采用半监督信息中成对约束调整吸引子传播算法的相似度矩阵,最后进行聚类。(2)针对吸引子传播聚类算法在处理结构松散的数据集时,算法倾向于产生较多的类,同时原始算法对偏向参数P值的设定比较敏感,提出基于半监督层次优化的吸引子传播聚类算法(Affinity Propagation Clustering Algorithm Based on Semi-supervised Hierarchical Optimization,SHO-AP)。该算法引入半监督技术,在吸引子传播算法得出的聚类结果基础上,利用建立的监督和非监督信息矩阵进行联合指导,通过层次优化进行最终聚类结果合并。(3)将基于半监督层次优化的吸引子传播聚类算法应用到股票价值投资中,利用算法对上市公司大规模财务数据进行分析和处理,找出其中有价值的关键信息,构建价值投资选股模型。为证券市场中股票投资分析提供一种新的参考方法。(4)将基于半监督层次优化的吸引子传播聚类算法应用到银行客户划分中,利用算法对银行客户业务相关数据信息进行分析和处理,使银行管理者可以对现有客户进行准确的划分,为不同客户群体提供更具个性化的服务。