【摘 要】
:
聚类分析是一种重要的数据分析工具,它根据相似度将数据组织到群集或组中,从而揭示数据的类别属性。最近,很多多核聚类方法被提出,它们使用了存在于多核的多视图补充信息以改善聚类的性能。尽管这些方法取得了一定的成效,但是在一个聚类任务中选择合适的核以及核的重要性仍然具有挑战性。此外,噪声处理也仍未得到优化。考虑到现实世界中的数据大多是非线性的,因此核聚类以及多核聚类在数据挖掘和模式识别中具有广泛的应用。本
论文部分内容阅读
聚类分析是一种重要的数据分析工具,它根据相似度将数据组织到群集或组中,从而揭示数据的类别属性。最近,很多多核聚类方法被提出,它们使用了存在于多核的多视图补充信息以改善聚类的性能。尽管这些方法取得了一定的成效,但是在一个聚类任务中选择合适的核以及核的重要性仍然具有挑战性。此外,噪声处理也仍未得到优化。考虑到现实世界中的数据大多是非线性的,因此核聚类以及多核聚类在数据挖掘和模式识别中具有广泛的应用。本论文的目的是利用多核和自适应邻居以及集成学习来提高聚类性能。本论文首先概述研究的背景和聚类的应用领域,接着讨论了研究现状。在当前的整个研究中,数据聚类分析已经取得了重大进展。本文针对进一步改善谱聚类方法性能问题,提出三种新颖的方法:一种是度量谱聚类自适应相似度的多核方法;一种是在双核空间中具有自适应相似度度量的共同正则化可鉴别的谱聚类方法;以及一种基于鲁棒的可鉴别的多核谱聚类集成方法。论文的主要内容如下:(1)本文提出了一种用于度量谱聚类自适应相似度的多核方法。基于多核空间的自适应邻域,该方法学习数据点间的相似性。在数据中具有更精确的自适应相似度度量的核会自动获取更大的权重,从而获得了一个能真正反映数据点内部结构的最佳核。基于组合核的局部结构,该方法将自适应的、最佳的邻居分配给每个数据点。所获得的组合相似度度量是稀疏的,并且是通过各种核的加权和得到组合核。在本方法中,考虑到相似度度量和数据聚类在两个单独的步骤中进行会导致次优结果,因此,数据相似度矩阵和聚类结构采用同时学习。所提出的方法能够搜索数据点之间的潜在相似关系,并且对复杂数据具有鲁棒性。与其他的最新方法进行了实验对比分析,表明该方法具有更好的聚类性能。(2)提出了双核空间中的共同正则化的可鉴别谱聚类方法。针对过去很多基于谱聚类的研究都没有考虑数据集的全局可判别结构问题,本方法方法考虑了保留全局几何信息和全局可判别信息进行优化聚类。同样,尽管以往的研究已经表明:在聚类中使用多核比使用单核可以获得更准确的聚类,但是关于谱聚类使用多核的优点尚未得到充分利用。同时,与单核方法相比,多核方法往往更耗时。为了提高谱聚类准确性又具有较快处理速度,该方法使用两个异构核将全局可鉴别项集成到具有自适应邻近框架中,在两个核视图之间寻找一致的聚类,以检测数据集固有的非线性几何信息。同时使用K-means改进的拉普拉斯算子获得标识矩阵执行聚类。实验结果表明:该方法有效提高了数据聚类性能,并且具有一定的抗噪能力和较快的处理速度。(3)提出了一种鲁棒的基于可鉴别的多核谱聚类集成方法。通常,真实数据包括损坏的部分,这些损坏的部分使得学习到的图不准确或不可信。为了进一步改善聚类性能和抗噪能力,基于图学习方案,该方法将可鉴别的多核谱聚类进行集成,通过自适应地去除原始数据中的噪音和错误,从现实世界的噪声数据中学习可靠的图,将可鉴别性纳入到基于纯净数据构建的相似度图中,通过将数据集的非线性特征空间投影到高维空间,自适应地学习这些空间中的每个数据点的最佳近邻。同时在多核空间(RDSC-MK)中,将多个可鉴别的核谱聚类方法进行相互约束集成。在大量合成和真实的数据集上与相关方法进行了实验比较,结果表明:该方法数据分类准确率更高,抗噪能力更好。
其他文献
苹果营养丰富,味道甜美,是人们经常食用的水果之一,但其采后易受病原菌侵染,从而造成巨大的经济损失。其中由扩展青霉(Penicillium expansum)引起的苹果采后青霉病是导致苹果腐烂的主要原因之一。目前,P.expansum侵染苹果机制的研究还处于起步阶段,P.expansum侵染苹果过程中最关键的致病因子尚不明确,这严重影响了人们对P.expansum侵染苹果机制的认识。本文针对学术界对
大数据背景下层出不穷的隐私泄露问题,为现实发展提出了新要求。就个人信息保护而言,本文深入剖析信息泄露背后所涉及的法律现象,当下保护个人信息方面存在的问题,从公民意识、国家监管、行业责任等多元主体的角度寻求应对之策。与时俱进,建构具有中国特色的隐私保护体系。
新型信息材料及其相关电子器件的探索与研究,是提升我国自主创新和科研开发水平,推动我国信息科学与技术发展的重要基础。有机电子学得益于在大面积、柔性、高透光性、低污染、低温度和低成本制造等方面的独特优势最近得到了迅猛的发展。新型共轭聚合物半导体材料,尤其是以施主-受主(D-A)聚合物为代表的一系列新型共轭聚合物半导体材料的出现引起了科研人员的广泛关注。目前已经报道的基于新型D-A聚合物的晶体管迁移率已
本文通过对《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)与《中华人民共和国民法典》(以下简称《民法典》)中个人信息保护制度两者的确立需求、意义、创新点及制约因素的研究,使公民能够清楚个人信息泄露的途径及原因,更好地防止信息的泄露。同时呼吁公民勇于与不法行为作斗争,使公民树立和增强维权意识,清楚个人信息泄露的危害及如何保护个人信息。最终使个人信息问题减少、出现的个人信息问题得到好的救
目的:通过探索幽门螺杆菌(Helicobacter pylori,H.pylori或Hp)相关胃病(H.pylori-related gastric diseases,简称HPGD)胃黏膜组织中上皮钙粘蛋白(E-cadherin)基因(CDH1)单核苷酸多态性(single nucleotide polymorphisms,SNPs)、mRNA表达水平及其蛋白定性定位情况与胃黏膜病理改变及中医证候
我国西部盐渍土地区土壤中含有高浓度的硫酸盐、氯盐、镁盐等腐蚀性离子,加之气候干燥、风沙大、紫外线强,导致当地钢筋混凝土结构出现了腐蚀、开裂等病害,严重降低其服役寿命。国内外学者虽对环境作用下钢筋混凝土的腐蚀破坏开展了一定的研究,但现阶段钢筋混凝土室内加速试验方法还存在一定的不足,关于钢筋混凝土腐蚀破坏的研究缺乏针对性,其腐蚀机理尚未清楚。还需进一步针对钢筋混凝土实际服役环境开展关于混凝土腐蚀破坏过
小菜蛾 Plutella xylostella(L.)(Lepidoptera,Plutellidae)属鳞翅目(Lepidoptera),菜蛾科(Plutellidae),是世界性的十字花科蔬菜害虫,对十字花科作物,包括油菜、花椰菜、甘蓝等,具有毁灭性危害。由于小菜蛾具有寄主植物丰富、天敌缺乏、世代周期短、繁殖能力强,以及抗药性强等特点,目前已成为分布最广泛的鳞翅目害虫,对全球造成的损失以及全球
感知可用性代表了用户对系统的满意程度,是用户对系统的直接评价,也反映了系统的声誉和用户的忠诚度。随着时间的推移,感知可用性的评价会逐渐发生变化,测量感知可用性变化的过程对系统可用性工程具有积极的意义。本研究基于感知可用性、标准化可用性测量量表和纵向研究等相关理论和方法,通过建立中文版系统可用性量表(SUS),数据质量检查方法,以及应对重测效应的SUS复本,构建了感知可用性纵向研究的综合评估方法。具
背景支气管哮喘的主要病理改变是气道黏膜水肿、不同程度的嗜酸性粒细胞和淋巴细胞浸润,其发生机制十分复杂,涉及遗传、环境和免疫调节等多个方面,其中免疫异常或免疫平衡失调在疾病的发生发展中发挥着重要的作用。Th2细胞的优势状态、气道高反应性和组织重塑构成哮喘的特征性三大病理改变。哮喘时呈现的Th2细胞极化状态与多种因素相关,然而这种气道的炎症损伤与Th1/Th2细胞失衡的因果关系及其可能的机制尚不十分清