基于半监督学习的吸引子传播聚类算法改进与应用

来源 :吉林财经大学 | 被引量 : 0次 | 上传用户:shakekele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的快速发展,大数据时代的来临使社会各行业的数据规模和复杂性都呈现爆炸式的增长,海量数据的产生促使人们利用数据挖掘技术对数据进行分析处理,从而获得数据背后有价值的信息。吸引子传播聚类算法(Affinity Propagation,AP)是由美国计算机领域两位学者在国际知名杂志《科学》上提出的一种非监督聚类算法。该算法收敛速度快并在实际应用中也获得较好的效果。尽管如此,算法本身仍存在一些问题:(1)AP算法在面对维度较高的数据时,由于高维数据的复杂使算法在分析数据的聚类结构时面对很大挑战,同时维数灾难使算法运行速度大大降低,以上因素导致算法难以得到合理的聚类结果。(2)AP算法对数据结构的选取有一定要求,在处理超球形数据时,算法的聚类性能较好,但在面对结构松散的数据集时,算法倾向于产生较多的类,导致聚类效果不佳。因此,对吸引子传播聚类算法进行理论改进和应用研究具有重要意义。本文主要研究内容如下:(1)针对吸引子传播聚类算法难以处理高维数据的聚类问题,提出基于局部保持投影的半监督吸引子传播聚类算法(Semi-supervised Affinity Propagation Clustering Algorithm Based on Locality Preserving Projections,LPP-SAP)。该算法通过局部保持投影算法将高维数据映射到低维空间,在此基础上采用半监督信息中成对约束调整吸引子传播算法的相似度矩阵,最后进行聚类。(2)针对吸引子传播聚类算法在处理结构松散的数据集时,算法倾向于产生较多的类,同时原始算法对偏向参数P值的设定比较敏感,提出基于半监督层次优化的吸引子传播聚类算法(Affinity Propagation Clustering Algorithm Based on Semi-supervised Hierarchical Optimization,SHO-AP)。该算法引入半监督技术,在吸引子传播算法得出的聚类结果基础上,利用建立的监督和非监督信息矩阵进行联合指导,通过层次优化进行最终聚类结果合并。(3)将基于半监督层次优化的吸引子传播聚类算法应用到股票价值投资中,利用算法对上市公司大规模财务数据进行分析和处理,找出其中有价值的关键信息,构建价值投资选股模型。为证券市场中股票投资分析提供一种新的参考方法。(4)将基于半监督层次优化的吸引子传播聚类算法应用到银行客户划分中,利用算法对银行客户业务相关数据信息进行分析和处理,使银行管理者可以对现有客户进行准确的划分,为不同客户群体提供更具个性化的服务。
其他文献
目的探讨不同术式腹腔镜腹股沟疝修补术的疗效及临床对比。方法分析122例单侧腹股沟疝行腹腔镜腹股沟疝修补术患者的临床资料,其中行完全腹膜外补片植入术(TEP)者46例,行经腹
在激荡的网络背景环境下,通过对80后90后阅读趣味的审美流变的分析,在此基础上进行针对80后90后的产业化设计,谋求新的文化产业发展模式和文化产业升级,在视觉上吸引受众的目
城市更新改造活动往往涉及多个土地权属,土地使用和各项建设具有极强的外部性,私人开发往往将自身产生的"负"的外部经济性推给社会,使周边地区受到不利影响,政府部门通过政策
目的探讨婴儿迁延性慢性腹泻病与乳糖不耐受和牛奶蛋白过敏的相关性,以及饮食干预的重要意义。方法选取大便稀烂、超过5次/d、持续时间超过2周、排除肠道致病细菌和病毒感染
目的探讨激素冲击治疗对急性一氧化碳中毒后迟发性脑病的效果。方法将40例急性一氧化碳中毒后迟发性脑病患者分为对照组和观察组各20例。对照组口服泼尼松5~10 mg/d;观察组予
互联网时代,企业除了降低内耗、提高运营效率,还需要与外部建立良好的互联互通,确保自己在行业生态价值网中的作用持续高效。流程优化作为一种管理思想和工具,它的发力点在两方面。一方面是企业内部运作环节和运作模式的优化,另一方面通过提高企业与外部环境交互界面的质量,增强企业竞争力。对现代企业来说,除了敏锐的市场嗅觉和前瞻的战略布局,组织能力的持续提升是生存发展的基石。组织能力很大程度上体现在高度分工之后的
自中国"一带一路"建立之后,世界各国与中国的经贸联系日益加强,有效地拉动了中国的对外投资。从开放"一带一路"经济区初期开始,中国企业就直接投资了相关的49个沿路国家,总金