基于多变换空间的半监督分类集成算法在高维数据上的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:a76s333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,模式识别作为人工智能中的重要领域得到了广泛的关注。针对现阶段模式识别中的分类任务,研究者需要处理的数据常常具有两个特点:1)数据集中有标签的样本难以收集、数量十分有限,而大量的无标签样本容易获得,2)数据维度很高。因此,高维数据的半监督分类任务有着较大的研究价值。常见的直接使用单一半监督分类器处理高维数据的方法存在两个问题:1)计算复杂度大,2)单个半监督分类器得到的结果常常不够稳定。针对以上问题,一种有效的处理方式是引入集成框架,在集成学习中,学习器之间的多样性是影响集成效果的重要指标,集成成员的互补性比单纯的精度更重要。为了提升集成多样性,目前常见的做法是直接基于单一的数据空间进行样本维或属性维的采样。在原始数据空间进行后续的算法处理使得集成模型相对单一,学习器学习到的内容有限,同时没有和半监督场景进行结合,导致集成效果较差。为解决以上问题,本文对半监督分类集成学习展开深入研究,针对数据空间单一的问题,本文提出了一种基于多变换空间的半监督分类集成方法(Semi-supervised classifier ensemble based on multiple data transformation spaces),称为SSC-MDTS。首先,SSC-MDTS使用基于半监督学习的多数据变换空间的构建算法(Multiple data transformation spaces construction based on semi-supervised learning,MDTSC)得到一系列变换空间;接着,基于每个变换空间生成一组随机子空间并在每个随机子空间上训练基于图的半监督分类器;最后,整合所有半监督分类器,采用多数投票机制将所有分类器的预测结果进行集成,得到最终的分类结果。SSC-MDTS将半监督学习和集成学习结合到一个统一的框架中,能够有效地处理高维数据,算法通过平衡基分类器的精度和多样性的关系,提升了集成分类器的整体性能,获得更加稳健和准确的学习结果。本文在20个高维数据集上对算法进行了实验验证,对比了领域前沿的算法,并具体分析了算法的有效性及其原因。实验结果证明了算法在处理有标签样本较少的高维数据集时的优越性能。
其他文献
超高分子量聚乙烯(UHMWPE)具有优异的抗冲击性能、耐磨损性能等,被广泛应用于多个领域。但UHMWPE极高的分子量及柔性的长链结构,使其极易形成分子链缠结,导致熔体黏度高,流动性差,加工极其困难,尤其是对于UHMWPE纤维、薄膜等制品的加工成型。之前的研究表明,拉伸流场具有诱导柔性分子链沿着熔体流动方向发生定向排列的作用,使得分子间的缠结点减少,分子链运动能垒下降,聚合物熔体黏度降低。因此研究U
作为一项可以增强人体行走能力的设备,步行助力器的辅助作用可以降低人体肌肉对于身体能量的消耗,延长步行的时间。但是,目前下肢步行助力器的研究存着一些缺陷:一方面,刚性步行助力器因为设备自身重量较大,能量利用率比较低;另一方面,柔性步行助力器主要的研究重点在通过改进结构、控制等方式实现降低人体代谢消耗的指标,没有太多关注辅助效率的话题。然而,利用更少的电池能量减少人体更多的代谢消耗,对于这类研究和产品
东莞水乡地区位于东莞市西北部,由于其独特的区位条件和自然基底,在经济高速增长、城镇化快速发展的广深经济走廊中,迄今依然呈现出以乡村为主体的城乡混杂状态。近十年来,该地区多次编制多种类型的规划,包括城市规划、村庄规划、城市设计,试图从不同角度思考该地区的发展路径,但多轮规划实施结果并不理想。经过近四十年的快速城镇化,珠三角地区的城乡关系发生了重大变化,而类似于东莞水乡这种位处城市群核心区域,但在功能
随着现代城市绿波协调控制技术的应用越来越广泛,传统基于固定绿波车速的信号协调控制方案设计逐渐难以满足实际的通行需求,因此随着车速检测、诱导与控制技术的发展,需要更加有效的车辆速度与交叉口信号配时协调优化方法来满足城市交通发展的要求。在进行信号协调方案设计时,固定的绿波车速不仅无法实时匹配实际交通状态,而且限制了道路的通行效率,还约束了区域绿波协调控制的优化空间,因此对绿波设计车速的研究将成为智能化
在船闸扩建工程施工过程中,该项目的基坑开挖工程会对现有结构体产生一定程度的影响。本研究以数值模拟为主要研究方法,分析了影响双排地下连续墙支护结构变形和应力特性以及相邻船闸室变形的几个主要因素。用MIDAS GTS NX数值模拟方法建立了新建船闸深基坑支护结构的有限元模型,并通过与施工和测量单位提供的工程监测数据进行比较,验证了计算模型的有效性。在完成构建模型的基础上,通过一系列数值模拟计算和分析,
学位
“即停即走”路段典型场景如学校门前、医院门前等因其特殊的功能定位,在道路交通体系中有着特定的存在必要性。然而在现实中,此类路段往往由于交通秩序混乱,极易产生拥堵,且拥堵一般会自瓶颈路段产生而逐渐向上游蔓延,导致整条路段交通通行效率下降,甚至导致区域交通网络瘫痪。当前对该类路段主要采取交通治理的方式,但由于不同程度地破坏了原有功能,往往给用户带来不便,迫切需要寻找一种能保证功能的更有效的缓堵策略,车
随着我国对燃煤电厂氮氧化物排放的控制要求日益提高,选择性催化还原(Selective Catalytic Reduction,SCR)烟气脱硝技术已成为国内燃煤电厂的主要选择。针对已运行的SCR脱硝系统存在氨逃逸过量和反应器出口NOx浓度偏差大等问题,本文开展燃煤电厂SCR脱硝系统分区喷氨优化模拟研究。利用数值模拟分析与性能试验相结合的方法分析流场和浓度场分布,模拟计算分区优化喷氨量;可根据多点测
摩擦纳米发电机(TENG)是一种能量收集装置,可将环境和人体产生的机械能转化为可供应用的电能,在可穿戴电子设备、植入式电子器件等领域应用潜力巨大,但是传统摩擦纳米发电机主要由金属和聚合物材料制成,存在生物相容性差、难降解等问题。纤维素具有良好的成膜性和力学性能,但结构中存在大量羟基,以其作为正极材料的摩擦纳米发电机的输出性能偏低。木质素结构中含有大量烷烃,具有比纤维素更优异的摩擦正电性。但木质素成
目前的钢桥面沥青铺装材料在服役年限内过早破坏一直是备受关注的问题。环氧树脂基混凝土是一种新型的聚合物混凝土,具有良好的附着力和优越的力学性能,有望能解决这个一直悬而未决的难题。混凝土在工程实际应用中往往处于多轴应力状态,且各个方向的应变率亦各不相同。然而,由于真三轴动态实验实施困难,目前仍缺乏针对混凝土多轴动态力学性能的研究。即便是最常见的压剪特性研究,由于需要同时考虑压剪复合加载和应变率效应,亦
研制高强韧的压铸合金一直是汽车领域的研究热点,Al-10Si-Mg-Mn合金在压铸业应用最为广泛。然而由于其压铸件性能波动大,再加上合金本身硅含量高、塑性一般,其在更高韧性、塑性场合下的应用受到限制。近年来,高强韧的低硅铝合金研究逐渐增多,低硅的Al-Si-Mg系合金共晶区占比小、α-Al基体数量多,合金本身具有良好的塑性,在此基础上再通过微合金化调控铝基体中的多种纳米析出相,可以阻碍位错运动提升