半监督与大规模数据聚类集成方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:rylqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种重要的无监督学习方法,它在没有类标签的参与下,通过对样本集的特征衡量其相似性,并据此将样本划分成不同的簇。目前,聚类分析已经被运用在许多实际的业务场景中,或是作为其他学习方法的预分析方法使用,在数据挖掘领域具有十分重要的地位。由于现有的聚类算法对距离度量的依赖、以及其定义上的不适定性等一系列原因,导致其往往难以达到理想效果。为此,研究者提出了利用集成学习思想的聚类集成方法,以及引入外部先验信息的半监督聚类方法等手段来改善聚类结果的稳定性与鲁棒性。而半监督聚类集成方法则进一步将二者进行结合来达到互补的效果,以期获得更加优质的聚类结果。本文从半监督聚类集成中成对约束的使用途径入手,指出了现有的部分研究中将成对约束运用在聚类成员生成阶段可能产生的一系列问题,并针对性地提出了两种在共识函数阶段运用成对约束的半监督聚类集成方法:使用标签传播思想令成对约束信息在样本图上进行传播从而提高共识聚类精度的传播式半监督聚类集成方法,以及通过成对约束信息与内部质量度量衡量簇质量并进行启发式加权的加权式半监督聚类集成方法。同时,针对目前许多基于共联矩阵的聚类集成方法难以处理较大样本数据集的问题,利用学术界在大规模近似谱聚类方面的一系列研究成果,提出了基于代表点与基于低秩矩阵估计的谱聚类方法的大规模聚类集成方法。实验结果表明,本文提出的传播式与加权式半监督聚类方法能够在共识聚类生成阶段充分利用来自外部的成对约束信息,相比于将成对约束信息用于聚类成员生成的方法而言,能够取得更好的性能,并且具有的时间效率。同时,本文提出的基于代表点与基于低秩矩阵估计谱聚类的大规模聚类集成方法可以运用在具有大样本量的数据集上,取得合理的聚类集成结果。
其他文献
多端柔性直流输电(Voltage Source Converter based Multi-terminal High Voltage Direct Current Transmission,VSC-MTDC)具有运行方式灵活、易于扩展等特点,在大规模可再生
断奶应激引起的仔猪肠道屏障损伤是造成仔猪生长缓慢、腹泻甚至死亡的重要原因。本文重点探讨了日粮添加果胶(Pectin,PEC)对脂多糖(lipopolysaccharide,LPS)应激断奶仔猪生产
为探索培育烤烟壮苗所需光照条件和不同素质烟苗对大田烟株农艺性状、生理生化指标及初烤烟叶理化特性的影响,采用室内人工光源设计不同光照条件,以云烟87和K326烤烟品种为材
在民事诉讼与司法实践中,将来给付请求区别于现在给付请求,因其突破了债法的一般性原则,成为一个特殊的存在。关于将来给付请求,许多大陆法系国家均对其予以认同并在立法中规
砷是一种剧毒和致癌的非金属物质,由于世界上超过一半的人口都以大米作为主要食物,稻米中砷的积累及其对人类的健康风险的影响引起了全世界的关注。饲料添加剂中的洛克沙胂随
在无线通信系统中,信道作为无线通信系统中收发端之间的物理媒介,其特性决定了无线通信系统的各种性能,如误码率、相关性等等,是无线通信系统至关重要的组成部分。由于电磁波
频率是电能质量的三大标准之一,随着风电渗透率逐年递增日益严重,因此风力发电系统主动参与电力系统调频是风电发展的必然选择。当前风电机组调频主要集中于风机侧调频,但此
本文主要探讨网络交易平台提供商构成商标帮助侵权的构成要件以及侵权责任形态。本文共分为四个部分。第一部分,平台商的法律地位属于网络服务提供者。网络交易平台提供商受
黄曲霉毒素M1(AFM1)是牛奶中唯一有安全限量的霉菌毒素。但是,近年来研究发现牛奶中AFM1与其他霉菌毒素尤其是赭曲霉毒素A(OTA)交互存在的现象较为普遍,而这种交互存在可能会
刑事诉讼以证据裁判为原则,没有证据则没有诉讼。在刑事领域,被告人在证据攻防中处于一种消极和防御的地位,即通过质疑、否定公诉方提出的证据以实现瓦解控诉的目的。显然,刑