基于深度学习的视频语义分割方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gao_zhenguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频语义分割是计算机视觉领域的基础任务,旨在为每帧图像上的像素点进行语义类别标记,从而获取对周围场景的像素级语义解析,在智能交通、自动驾驶等领域具有广泛且迫切的应用需求。不同于图像数据,视频数据一方面蕴含了丰富的时序信息,反映了物体的运动规律,可以为语义分析提供重要先验,但另一方面视频内容往往更加复杂且数据量更大,难以获取完整数据标注,导致模型学习更加困难,实际部署时计算资源消耗巨大。因此,视频语义分割研究在利用视频数据优势的同时也要解决其带来的学习挑战。近年来,深度学习在视频语义分割领域取得了广泛成功,但在实际应用场景中,目前基于深度学习的视频语义分割方法仍然存在不足。根据应用场景的不同,现有方法可以大致分为两大类。针对效率优先场景,现有方法利用光流建模关键帧与当前帧之间的像素级关联,通过特征传播技术复用关键帧特征,避免当前帧的特征提取操作,从而提升计算效率。针对精度优先场景,现有方法同样利用特征传播技术将相邻帧特征对齐至当前帧,然后通过融合多帧特征提升语义分割精度。可见,基于光流的特征传播是现有方法的核心技术。然而,在实际应用场景中,光流难以处理常见的纹理不足、遮挡等情况,容易产生错误结果,导致现有视频语义分割方法会面对以下两点挑战:1)在效率优先场景中,关键帧特征在特征传播过程中会发生扭曲,直接导致分割结果出错;2)在精度优先场景中,错误的光流估计结果会导致相邻多帧特征无法准确对齐,使得特征融合过程中会引入噪声,直接影响特征质量。除了上述两种典型场景,由于标注成本限制,标注稀缺场景在实际应用中也非常普遍,而现有方法通常是基于深度学习技术进行构建的,依赖大量标注视频样本参与训练,因此无法适用于标注稀缺场景,导致大量无标注视频数据无法有效利用,并且模型容易出现过拟合问题,影响模型性能。本文针对这些典型应用场景中存在的关键问题进行了深入研究,结合深度学习技术提出了一系列算法,主要的研究工作及创新点如下:(1)针对效率优先场景中现有方法存在的特征扭曲问题,提出了一种基于扭曲感知的特征矫正方法。该方法利用图像域与特征域共享扭曲模式的特性,从图像域实现对传播特征扭曲区域的准确定位,并利用轻量级模型从当前帧提取必要信息,并对扭曲区域进行针对性矫正。实验结果表明,在不额外引入过多计算量的前提下,该方法的分割精度大幅超过现有方法,尤其是在传播距离较大的情况下。(2)针对精度优先场景中现有方法存在的多帧特征无法准确对齐问题,提出了一种基于时空融合与记忆强化的特征增强方法。该方法从优化多帧特征融合与探索单帧特征强化两个角度入手。一方面,该方法提出了一个基于Transformer的时空融合模块,可以自适应融合不同时空位置的像素特征,避免了容易出错的光流估计过程;另一方面,该方法提出了一个记忆强化模块,从训练样本中保存典型特征(边界特征与类别原型),在推理过程对易错特征进行调整,使其往对应的类别原型方向偏移,提高特征的可判别性。实验结果表明,该方法在不同的基线分割模型上均可以带来显著的分割精度提升。(3)针对标注稀缺场景中现有方法存在的无标注数据无法有效利用与模型过拟合问题,提出了一种基于帧间特征重构的半监督学习方法。该方法利用无标注帧特征对标注帧特征进行重构,并使用单帧语义标注监督重构特征的学习,从而实现为无标注数据间接提供准确语义监督的目的。该方法本质上利用了视频数据的内容相关特性,有效利用无标注视频数据辅助模型训练,缓解模型过拟合问题。实验结果表明,与现有的半监督学习方法相比,该方法可以获得显著的分割精度提升,尤其是在标注样本稀缺的情况下。综上所述,本文对视频语义分割任务进行了深入研究和探索,结合典型应用场景的特点,针对在实际使用过程中存在的难点问题,分别提出了基于深度学习技术的针对性解决方案。相比于现有工作,大量实验表明,本文所提出的方法可以在不同的应用场景中显著提升分割精度,缓解算法对大量标注数据的依赖,有效推动视频语义分割算法的技术落地,具有重要的应用价值。
其他文献
由于云计算简单方便且成本低廉,海量用户推动了现代云计算平台的蓬勃发展。作为一种新的计算和服务模式,云计算通过将大量高性能物理服务器和网络设备等资源抽象为一个巨大的共享资源池,向用户提供无处不在的、方便的、按需的服务。近年来,用户数量的增长造成更多的资源需求,而资源池容量会受到基础设施(如服务器、交换机、机柜)的尺寸、价格、性能以及能源开销的限制,云端资源愈发紧张;因此云服务的性能保障和优化愈发重要
随着信息技术的快速发展和互联网的全面普及,人类的生产生活已经进入了数字时代。数据,作为一种信息载体,已经成为一种基础且重要的生产资料。在云计算和大数据技术的支撑下,人们可以更好地管理数据并从海量数据中挖掘新的价值。然而,在充分享受大数据带来红利的同时,个人隐私和企业敏感数据的保护也不容忽视。查询是数据分析和处理过程中的一种常见操作。查询的结果可以是满足查询条件的数据记录本身,也可以是一组数据上的某
缺陷工程对半导体光伏器件至关重要,全面深入地理解缺陷形机理并合理调控缺陷有利于实现高效的太阳能源转化。准一维(Q1D)结构的锑基硫族化合物Sb2S(e)3(Sb2S3,Sb2Se3和Sb2(S,Se)3)是一类新兴的太阳能电池光收集材料,具有优异的光电性质。然而,该类太阳能电池由陷阱复合导致的严重开路电压(VOC)赤字则是制约其发展的巨大阻碍。因此,增进对Sb2S(e)3的缺陷性质基础认知和理解,
四维光场图像在生物医学、工业光学检验、深海探测等领域有着较为广泛的应用,然而普遍较低的空间与角度分辨率,限制了其应用场景。因此,光场图像超分辨率成为了计算成像领域的一个重要研究课题。近年来,基于深度卷积神经网络的光场图像超分辨率技术取得了重大的进展,然而现有的光场超分辨率技术仍然面临重建保真度低、网络模型参数量过大、泛化能力差等问题。针对这些问题,本文从性能提升、轻量网络、模型泛化等三个方面展开研
Ⅰa型超新星起源于质量接近钱德拉塞卡极限的碳氧白矮星的热核爆炸。峰值光度和光变曲线的演化速度之间满足Phillips关系,因此被广泛地用作宇宙学距离的标准烛光。然而Ⅰa型超新星的前身星系统,亦即碳氧白矮星是通过何种途径接近钱德拉塞卡质量极限,目前还不明确。对星周介质的研究将为区分不同的前身星演化方式提供独特的视角。吸积和并合是天文中两种最常见的质量增加的方式。吸积过程通常伴随着物质的向外转移,对应
位错滑移和变形孪生是金属材料两种最重要的变形方式,这两种变形方式的启动与竞争不仅影响金属材料的力学性能,还会直接影响变形后的微观结构。与面心立方(FCC)金属相比,密排六方(HCP)金属的晶体学对称性较低,变形方式和变形结构更加复杂。HCP金属最主要的变形方式为基面滑移,难以像FCC金属那样,为均匀变形提供5个独立的滑移系;另一方面,基面滑移难以协调c轴方向的应变,使得塑性变形具有高度的各向异性。
氘氚聚变反应是地球上最容易实现的核聚变反应。在核聚变反应堆中,大量的氘氚等离子体将直接轰击堆内部件,渗透通过聚变材料进入到内部冷却剂中。氘氚渗透行为不仅会干扰包层实验模块(TBM)产氚量的评估,还会产生大量的放射性冷却剂如氚水或者含有氚氦气。掌握各种服役条件下聚变堆关键部件及其材料的性能变化,并分析其对氚渗透性能的影响,对于精准评估聚变堆TBM产氚率及面向等离子体部件氚渗透损耗量具有关键意义。本文
本文建立并发展了一套有效且稳健的精确手段,将描述引力成团性的扰动理论应用到大尺度结构巡天数据的轻度非线性区间,从而提取可靠的宇宙学信息,用于分析宇宙大尺度结构(LSS),这便是大尺度结构的有效场论(EFTofLSS)。我们将着重研究通过 EFTofLSS 方法对 Baryon Oscillation Spectroscopic Survey(BOSS)巡天数据进行分析。首先我们研究了只通过LSS的
最大限度地延长网络的寿命是无线传感器网络(WSN)中的一项关键挑战。当WSN中的传感器节点(在传感区域中通常无法直接访问)由电量有限或不易更换的电池供电时,这项挑战显得尤为迫切。传感器电池电量耗尽可能导致网络拓扑的改变或网络寿命中止。因此,延长传感器网络的寿命具有重要意义。除了能量问题之外,还有受限的处理和存储能力、可扩展性、短距离传输以及它们在传感器网络中的位置等其他问题。传感器节点的无线电通信
基于电化学的高效能量转化与利用有望缓解传统化石燃料所带来的能源和环境压力,而电催化剂的精准研发亟需厘清不同材料的内在构效关系并掌握工况条件下的性能演化规律。作为当代最重要的大科学装置之一,同步辐射已逐渐成为探索电催化前沿科学问题的综合研究平台。特别是,同步辐射谱学技术的发展为明晰电催化材料的构效关系,并进一步指导其精准制备带来了重要契机。其中,同步辐射X射线吸收谱具有元素选择性,可以探测样品的局域