基于深度学习技术的多损失半监督图像语义分割及扩展研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:JustFelling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义分割是计算机视觉的研究热点,可以有效地实现对图像的高层次语义理解。根据是否对训练数据进行标注以及标注的程度,图像语义分割可以分为基于全监督学习、基于弱监督学习和基于半监督学习。其中,半监督图像语义分割因其要求对部分训练数据进行标注的灵活性和便捷性,近年来受到越来越多的关注。尽管半监督图像语义分割具有广阔的应用前景,但在现有的方法中处理光照条件不好、小尺寸目标的分割、图片中具有相同语义的多个对象等特殊情况的图片时效果不佳。针对上述问题,本文首先提出了一种新的基于多损失的深度对抗网络。在技术上,新网络采用鲁棒性更强的WGAN-GP模型作为骨干,而不是传统的GAN模型。在网络训练过程中,引入了交叉熵损失、边缘检测损失、对抗损失和半监督损失等多种损失。从著名的Pascal Voc 2012数据集和Cityscapes数据集中选出的具有挑战性的案例的实验分析表明,该方法对分割模型的细节处理能力有所提升。进一步的,本文继续设计对比实验对半监督学习中标记数据占数据集的比例对模型分割性能的影响进行了探索性扩展研究,由于本文提出的对抗网络中生成器可以是任意的分割模型,于是将现有的FCN、Deep Lab等全监督训练的分割模型替换原有的生成器,使得全监督学习变为只需要输入部分标签的半监督学习从而达到减轻对数据集进行像素级标记的繁重工作。对各个模型分别使用了Pascal Voc 2012和Cityscapes两个数据集进行对比实验后发现,随着标记数据的增加模型会训练得更好,但全监督训练不一定能得到最好的语义分割结果。通过基于深度学习的多损失半监督图像语义分割及扩展研究可以发现,半监督学习蕴含着巨大优势。
其他文献
随着互联网不断融入到社会经济和日常生活中,人们已习惯于进行各种在线信息查询和交互行为(如数据检索、信息查询、网络购物、社交、导航等),网络数据、信息的数量及其应用飞速增长,导致如何在海量信息中,准确、快速获得所需要的信息成为近年来的研究热点。其中,各类推荐系统作为一种解决该问题的有效方法,尤其是协同过滤算法,已经取得了不少的研究成果并被广泛应用。然而,相关算法在稀疏性、冷启动、抵御托攻击等方面,仍
随着卷积神经网络技术的飞速发展,人脸识别成为模式识别与人工智能领域研究的热点。传统人脸识别方法主要依靠特定场景的手工特征进行特征提取,鲁棒性较差,应用场景受限。而基于卷积神经网络的人脸识别方法通过多层级联的复杂线性结构直接从人脸样本图像中提取区分度更高、更具有表达能力的人脸特征信息,从而提高人脸识别准确率。人脸识别技术的核心在于如何提取强区分性的人脸特征,鉴于此,本文聚焦于特征提取网络结构,对基于
随着数据爆炸时代的到来,如何高效快捷地挖掘出冗余数据中有价值的信息变得越来越重要。聚类分析是一种无标签、无监督学习的数据挖掘技术,可以在低成本的情况下发现数据中有价值的信息。模糊C均值算法(FCM)就是聚类分析中的一种典型算法,它在K-means算法的基础上加入模糊集理论,被广泛应用到各个领域中。但是,模糊C均值算法对初始聚类中心较敏感且鲁棒性不强。针对这些问题,本文提出了一种改进的核模糊C均值算
在数字图像处理技术高速发展的今天,图像配准作为图像识别领域的热门研究方向,在医学影像处理、遥感图像处理、计算机视觉以及人脸识别等领域有着极为广泛的应用。图像配准技术发展到今天,经过几代学者孜孜不倦的钻研探索,在图像识别领域已经提出了很多种性能优秀的配准算法。在这些配准算法中,尺度不变特征变换(SIFT)特征具有良好的尺度不变性,对图像的旋转、缩放、光照变化以及噪声都有着不错的容忍性。尺度不变特征变
随着微电网在电力行业的快速发展,微电网电能交易开始走向市场化,对微电网电能可信交易的研究具有重要的理论研究价值和社会价值。现有基于区块链的微电网电能可信交易存在以下问题。问题一是现有基于区块链的微电网电能可信交易模型大都针对某一特定层面,忽略整个模型数据间的联系与交互问题,导致模型缺乏灵活性。并且,现有基于区块链的微电网电能可信交易模型使用单链存储方式,导致模型产生的所有数据都进行了大量重复存储,
身份感知的面部表情识别是近年来面部表情识别领域的一种重要的模型设计思路,其旨在降低或避免面部图像间的特征差异干扰面部表情识别模型,减少人与人的特征差异而提升不同表情之间的差异。近年的研究为身份感知提供了两种实现思路,第一种采用扩大类外差异、缩小类内差异的策略提升识别精度;第二种采用当前热门的生成对抗网络进行图像的风格迁移,通过真实图像与生成图像间的差异性,获得预测分类结果。本文基于生成对抗网络的身
近几年以来,网络上的文本数据越来越多对海量的文本数据如何进行有效的管理已成为信息管理领域中热门的研究内容之一。信息管理领域首要的任务就是理解文本的语义,其中句子相似度的计算就是常用的方法之一,它在智能客服、机器翻译、信息检索等领域有着广泛的应用。本文重点研究了中文问句相似度计算的问题,具体内容如下:经调研发现目前的中文问句相似度计算模型存在以下几个问题:一、模型的性能依赖于中文分词技术的准确性;二
虚拟手术是以医学图像数据为基础,通过三维重建技术构建出虚拟器官组织模型,同时通过触觉交互系统模拟出真实手术过程中手术器械与虚拟组织器官的交互场景,提供给用户真实体验和沉浸感的一类虚拟现实系统。在虚拟手术系统中需要建立高度逼真的软组织器官几何模型,同时在手术中常见切割、缝合、抽吸等操作后常常伴随着出血场景,这也是虚拟手术仿真中的难点。针对虚拟手术中几何模型真实性不高和虚拟手术中血流可视化仿真不真实的
交通标志检测是智能驾驶中的关建技术,对于无人驾驶以及汽车辅助系统都有较大的研究价值。自然交通场景中汽车行驶速度快,对于检测的速度要求较高。而交通标志相对于道路上的其他物体其体积较小,检测难度大。本文对于上述交通标志检测的两个重要问题运用深度学习技术进行研究,以求能研究出能同时满足交通标志检测任务中速度与精度的模型。具体的工作内容如下:(1)针对交通标志检测难度大,精度要求高的问题,本文在精度较高的