协同训练中样本选择策略的研究

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:jybertrand123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,存在相当一部分数据集由大量的无标记样本和少量的有标记样本组成,由此产生了半监督学习。半监督学习通过少量的有标记样本和大量的无标记样本来进行模式识别工作,在减少人工标注成本的同时较准确的进行分类工作。此外,半监督学习的另一大优点是其能够解决监督学习模型泛化能力不强和无监督学习模型不精确等问题。协同训练是一个简单有效的半监督学习框架,在多个视图上训练多个分类器,通过多个视图互补的作用,迭代的标记无标记样本。作为半监督学习的一种,协同训练因其具备的多视图和协同性得到了许多研究者的青睐。然而,半监督协同训练方法中还存在许多问题,例如:采用何种策略选择无标记样本加入迭代过程中以保证最终得到高性能的分类器;样本集中存在高模糊度的无标记样本,如何找到这类样本并正确标记以避免其被误分类带来的错误累积问题;协同训练在两个视图上训练得到两个分类器,如何解决同一样本两个分类器标记不一致的问题。本文针对半监督协同训练中存在的此类问题进行研究,研究工作主要包括以下内容:(1)针对协同训练方法在迭代时选择加入的无标记样本所隐含的有用信息不够和协同训练方法多个分类器标记不一致带来错误标记无标记样本的问题,提出了一种结合半监督聚类和加权KNN(k-Nearest Neighbor,KNN)的协同训练方法。该方法在每次迭代的过程中,先对训练集进行半监督聚类,选择隶属度高的无标记样本给朴素贝叶斯分类,再用加权KNN对多个分类器分类不一致的无标记样本重新分类。在UCI数据集上的对比实验验证了该算法的有效性。(2)针对协同训练方法对模糊度高的样本容易标记错误导致分类器精度降低和协同训练在迭代时选择加入的无标记样本隐含有用信息不够的问题,提出了一种结合主动学习和密度峰值聚类的协同训练方法。该方法在每次迭代之前,先选择模糊度高的无标记样本主动标记后加入有标记样本集,然后利用密度峰值聚类对无标记样本聚类得到每个无标记样本的密度和相对距离。迭代时选择具有较高密度和相对距离较远的无标记样本交由朴素贝叶斯分类,反复上述过程直到满足终止条件。在UCI上的对比实验证实了提出算法的有效性。(3)针对在协同训练中,采用高置信度策略选择无标记样本并不总是有效的问题,提出了一种基于信息熵和多准则的协同训练方法。该方法在每次迭代之前,先用信息熵的方式进行视图分割,然后在两个视图中,对视图1和视图2分别采用聚类准则和置信度准则选择无标记样本。此外,为了保证选择的无标记样本更具价值,在多准则中充分考虑有标记样本的作用。在UCI的9个数据集上的实验表明了本文算法的有效性。
其他文献
随着移动互联网的蓬勃发展,人们越来越多地通过网络社交媒体便捷快速地获取和传播各类信息。由于其门槛低、监管松、可牟利的特性,社交媒体平台成为不实信息制造和传播的“沃土”;日趋老龄化的社会人口对养生保健信息存在巨大需求,健康相关领域也因此成为不实信息泛滥的重灾区。本文依托于中文文本分类、机器学习和深度学习技术,以实现虚假健康类社交媒体信息的检测和识别为目的,利用网络爬虫采集的健康类媒体信息数据,分别设
随着容器虚拟化技术的发展,越来越多的企业架构逐渐转变为容器化部署。智能服务中心在向多媒体化、智能化、网络化发展过程中,也迫切的需要进行服务化转型。随着应用规模的扩大、功能模块和复杂性的增加、服务迭代速度的加快,通过人工方式管理集群的弊端不断扩大。如何有效的管理大规模的服务集群、降低系统的运维成本、保证服务的高效管理和灵活调度成为智能服务中心服务化转型中需要重点解决的问题。其次,业务逻辑越来越复杂、
集约和密集化的水产养殖在带来巨大经济效益的同时,也使水质污染问题日益严重。要想解决水产养殖水体的污染问题,主要考虑几个方面的问题:第一,氨氮在水产养殖的过程中不断积累,对水体中鱼类产生很大的影响。如何在不破坏生态平衡、不转移污染的情况下有效降低水体中的氨氮含量是水产养殖过程中亟需解决的问题;第二,目前,市面上环境友好型的生物菌剂,可以在原位净化水质的同时维持生态平衡,但随着养殖时间的延长或养殖过程
随着社会的不断发展和进步,人们对于精神文化方面的需求越来越重视。写作作为生活中无处不在的活动,越来越受到人们的关注。在初中语文教学中,作文也是必不可少的教学内容。开展作文教学是培养学生书面表达能力、思维能力,进而全面提高学生语文水平的重要途径,是培养学生语言文字运用能力的必经之路。长期以来,不少教师和学者对作文训练进行了多方面的尝试与改革,但是目前作文训练依然存在训练内容应试化、训练文体单一、训练
2018年9月1日,《中共中央国务院关于全面实施预算绩效管理的意见》出台,这是政府治理方式的深刻变革,要求不断提升财政资金使用绩效,突出了绩效导向作用。这是提升公共服务质量、推动财政资金聚力增效的需要,也是增强政府公信力和执行力、推进国家治理体系和治理能力现代化的需要。农业是第一产业,关系到国计民生。近几年来乡村振兴战略的提出,进一步体现了三农的重要性。绩效评价是体现和判断财政资金绩效的工具和方法
镁合金的性能优势使得其在新能源汽车、生物医学等领域应用十分广泛。但常规的轧制方法生产板材时极易产生严重的边部裂纹和性能差异,极大的制约了镁合金板材工业化生产及推广应用。因此,本文在课题组“边部预制凸度抑制边裂”研究思路的指导下,采取理论分析、数值模拟、实验研究三维一体的研究方法,通过对以下内容的研究,以期检验边部预制凸度抑制镁合金轧制边裂的可行性,并探明其预控机制。主要研究内容如下:(1)AZ31
本文是有关基于新型材料液态金属镓铟锡合金天线设计的研究。本文在对国内外有关液体天线——主要是液态金属天线设计及液态金属应用的现状研究学习的基础上,对各类基于液态金属的天线设计方案进行对比总结,发现电磁性能较为稳定,且适用于大规模制造的液态金属镓铟锡合金材料,在可重构天线及柔性天线的设计中具备自身独特的优势。文章基于液态金属镓铟锡合金的该种特性,对国内外可重构天线及其液态金属天线的设计进行了深入的研
图像显著性检测是机器视觉的重点研究课题之一,因其广泛的实际应用价值成为研究热点,但如何快速、精准的提取图像中有用信息是图像显著性检测的关键。通过显著性检测获取人类感兴趣的区域,进而分离出图像的目标区域和背景区域,由此可以实现图像分割、目标识别、视频追踪等机器视觉应用。本文首先介绍几种经典的显著性检测模型,并对每种模型的检测图和模型特点进行分析对比,在此基础上提出一种基于低秩稀疏分解与马尔可夫链的显
近年来航天航空事业的高速发展,对电路性能的需求不断增加,而且面临的空间辐射效应不断严重,迫切需要技术的的发展与革新。FDSOI作为一种新型半导体工艺结构,在抗辐射能力、功耗、器件缩比特性方面具有显著优势,越来越受到业界的关注。随着FDSOI技术的不断发展,器件尺寸已步入纳米量级。小尺寸器件由于工作电压较低,电路节点临界翻转电荷也较小,电路对单粒子效应越来越敏感。FDSOI器件尺寸变化对单粒子效应的
支气管哮喘(简称“哮喘”)是过敏原或其他因素引起的气道高反应状态下出现的广泛而可逆的气道狭窄性疾病。最新发表在《柳叶刀》上关于“中国成人肺部健康研究”数据显示,中