多视图K-means聚类算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:l_chuanfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源。同一数据对象的多源信息采集技术和多样化的特征表示能力使多视图数据在众多实际应用中越来越普遍。而对于特定的机器学习任务,数据对象的多个视图彼此之间通常具备互补性和一致性,有利于利用不同视图的优势提高机器学习的有效性,因此多视图学习逐渐受到了人们的关注。多视图聚类作为多视图学习的基本任务之一,通过充分融合多个视图中的信息,从而获得有效的类划分结果。现有的经典多视图K-means聚类算法,由于其简单高效、易于实现的优点,已经成为众多多视图聚类中应用最为广泛的算法之一。然而多视图K-means聚类算法不但存在K-means固有的初值敏感、类数目事先指定的问题,还存在如何自适应学习视图对类结构的权重贡献,以及样本对不同视图重要性的“局部”学习问题。本论文针对以上两个问题展开研究,取得了如下研究成果:(1)针对K-means型多视图聚类算法的类个数和初始中心选择问题,本文研究了不同初始化方法对多视图K-means的影响,提出一种基于采样的主动式初始中心选择方法(SDPC)。该方法首先对原始数据集进行均匀采样,运用DPC算法和CV指标获得候选类中心和类个数,然后对剩余节点进行直接指派,将得到的指派结果作为多视图K-means聚类算法的初始类划分。相比随机初始化、K-mean s++等其他初始化方法而言,SDPC算法不仅解决了类个数和类中心的问题,实验结果显示SDPC算法还以约10倍的计算速度加快了 DPC算法的种子选取进程,降低了算法的复杂度。(2)针对现有多视图K-means聚类算法没有全面考虑多视图数据的不同样本间存在“局部”信息的差异性问题,本文提出一种新颖的多视图样本权聚类方法(SWMVC)。该方法不仅可以学习不同样本点中的多个视图间权重的“局部”差异,而且学习到的“局部”差异可以反映出不同视图对簇结构贡献的“全局”差异,具有较好的灵活性。多个数据集上的实验表明:SWMVC方法在具有较好互补性的异质多视图数据上聚类效果提升明显。
其他文献
2011年9月以来,温州集中出现企业倒闭、企业主"跑路"、甚至自杀等情况,其严重程度被学术界称为"民间借贷危机"。危机暴发后,大多学者专家从各方面分析危机的发生,剖析其原因,
农业是我国国民经济发展的基础,我国所有行业的发展都离不开农业基础。科学技术是第一生产力,近几年,随着我国科技的不断创新和进步,我国在各行各业的发展中都出现了许多先进
本文结合城市色彩规划实例,探讨实现城市色彩理想的路径和策略,色彩城市的理想应该具有平衡科学技术与美学艺术的协调功能,在城市文化的层面上阐释城市的广义文化价值,在艺术与
2000年4月16日下午3时.长沙贺龙体育场人头攒动。在众目瞪瞪之下,一个农民模样的中年汉子驾驶着一辆东风大卡车.以50公里的时速向一障碍物冲去。“嘭”地一声响.汽车戛然而止。汉
<正> 一剧情模式根据人物选择的不同对战人物的顺序也不同,基本上和原作的顺序是相同的。用6名基本人物完成剧情模式后,还能得到新的角色和场地。顺序是鸣人→日向螺旋→日向
期刊
约翰·默多克(John E.Murdoch,1927-),著名美国中世纪科学史家,哈佛大学科学史系教授。他的专长是无限与连续性的研究,尤其注重科学与哲学、宗教、逻辑等背景的关系。今年刚
<正>依托云南交投"智慧高速"建设项目,围绕"智慧运维"主题,建设以高速机电运维流程管理为重点的云南高速机电系统运维管理服务平台,实现对全路网设备的统一监控、集中管理,完
概述了绿色照明的涵义,说明绿色照明工程实施的进度和效果取决于节能照明产品推广应用的范围和速度,并运用数据分析论证了节能措施的效果。通过节能方法实施说明,绿色照明工
矿井及工业爆破时,产生的有害气体以一氧化碳为主,同时有较高浓度的二氧化氮、氨、光气和粉尘等有害物质,在通风不良、防护意识不强、防护设施不到位的情况下,作业人员极易发
行政协议作为新型的行政管理手段,在实践中得到广泛的应用,越来越被人们普遍的接受。行政协议优益权是行政协议的重要特征,为行政协议的顺利履行和政府管理目标的的顺利实现