基于深度学习的室内场景语义分割算法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:iSee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像的语义分割是指根据语义信息识别出图像中对应物体的类别和位置,是计算机视觉领域的研究热点之一。相对于传统的图像分割算法,基于深度学习的分割算法不仅能自动的进行特征提取,还可以进行端到端的训练,分割精度和速度均有所提升。然而,由于室内场景的复杂性,室内场景的语义分割仍然极具挑战。随着深度相机的出现和发展,研究者们开始利用深度信息提高语义分割的精度。在这种情况下,本文针对室内场景的语义分割算法进行了研究,主要内容如下:1)针对目前大多数室内场景语义分割算法的融合方式过于单一,不能根据RGB和深度信息的特点进行融合的问题,提出了一种结合注意力的分割算法。该算法通过引入注意力机制的思想,设计了特征融合模块,首先利用残差卷积块加强网络对RGB和深度信息的局部相关性的学习,接着利用注意力机制完成RGB和深度信息的互补融合;同时利用多尺度联合训练,加速网络收敛,提高分割准确率。实验结果表明,该算法在室内场景的语义分割任务中表现良好,能够有效提高分割精度。2)为了降低网络的参数量和计算量,同时进一步优化图像的底层特征、挖掘深度信息,提出了一种高效的、基于深度感知嵌入的分割算法。该算法首先结合扩张卷积设计了特征提取部分,分为两个分支同时对RGB图像和深度图像进行下采样和信息提取;然后,对提取到的RGB特征图进行卷积信息重组,通过跨层融合的方式提升低级特征的质量,使网络获得的特征更接近标签,同时对深度特征图进行链式残差池化增强网络对几何信息的感知,使用学习到的权重对提取到的几何特征进行相加融合以增强几何信息的局部相关性;最后,设计了信息融合模块分阶段嵌入深度信息。实验结果表明,该算法相比结合注意力的分割算法,在保证分割精度的同时大大降低了网络的参数量和计算量,有效提高了网络的分割效率。3)为了使本文算法满足实时处理的要求,在基于深度感知嵌入的分割算法的基础上进行优化,通过缩减特征图的通道数降低网络的参数量和计算量,再利用改进后的卷积信息重组部分,利用深度可分离卷积扩展特征图的通道数以捕获更为丰富的细节特征和通道信息。实验结果表明,优化后的分割算法无论是分割精度还是速度都优于SegNet、双流加权Gabor等目前主流的实时分割算法。
其他文献
“照片分享”在社交场景中占有很大一部分比重,QQ空间、微博、微信朋友圈里自拍占据着大量的版面。目前大部分应用都是以人脸识别技术为基础开发的。随着人脸识别率的不断提升,已经有越来越多的科研工作者开始对人脸局部信息进行深度挖掘,提出了更多有意思、有价值的应用。“变脸”其实就是其中之一。变脸和换脸其实是一种人脸合成技术,通过关键点的检测生成mask模板,采用抠图、贴图的方式实现两张人脸区域的交换,并做一
随着科学和技术的不断发展,控制系统变得日渐复杂,系统部件一旦发生故障将会降低系统性能,甚至会发生灾难性的事故。为了提高复杂系统运行过程中的可靠性能,降低出现故障时对系统的影响,及时的故障诊断尤为重要。故障估计是故障诊断中的重要一部分,其为后续的容错控制处理故障奠定了基础。本文主要研究的是将迭代学习算法应用到非线性系统故障诊断中,设计迭代学习故障估计器,实现对系统故障的准确估计。第1章阐述了本课题的
人的面部表情蕴含着丰富的信息,通过观察人脸表情的变化,可以判断一个人的情绪状态。随着信息技术的发展,人们对人机交互界面的设计提出了越来越高的要求,使得人脸特征建模与表情生成技术在人机交互中发挥着非常重要的作用。如何设计一个具有真实感的人脸表情生成系统是研究人脸表情特征建模与表情生成的一个重要内容。本文通过对人脸表情特征的变化规律进行分析,研究基于回归的人脸表情特征建模算法,从而生成具有真实感的人脸
公共文化服务体系建设作为我国的全球文化战略,对我国经济持续发展和维护社会稳定具有重要作用,如今在新态势发展背景下,存在着供给不均、人才短缺等问题,因此,笔者将在本文中,在分析供给部门结构性改革对于公共文化服务系统基础建造方面,怎样有效提升公共文化服务水准,如何创建公共文化服务系统等方面提出了相对应的改革措施,进一步全面推动公共文化服务科学供给,强化公共文化团队建设,改善补充公共文化服务机制的目标。
随着无线通信业务的猛增,需要更多的频谱资源为用户提供数据传输服务,而当前大部分频谱资源都已经分配给特定的频谱使用者,这样的方式导致频谱资源利用率低的问题,因此认知无线电(Cognitive Radio,CR)技术应时而生,其中动态频谱分配问题是这个技术中的核心,出于提高频谱利用率的目的,本文针对认知无线电和频谱分配问题进行了研究,提出基于改进鲸鱼优化算法(Improved Whale Optimi
社会的发展带动着信息数据的高速运转,为了能更加直观、生动的获取我们所需的信息,数字图像进入了信息载体的“主流”之中。并且随着科技发展不断的推动,数字图像已经以不同形式在教育、医疗、通信、智慧农业、通信等方面发挥着极为关键的作用。快速的发展也带来了一定的弊端,尤其是图像的清晰度问题,使得对于真实信息的获取受到了一定的阻碍。在图像的采集和传输过程中,由于外界环境以及传感器本身的影响,图像会不可避免受到
随着经济发展,社会文化水平提高,文化馆的全民艺术普及事业也开始步入了类似于社会经济"中等收入陷阱"的阶段,传统的文化服务模式已经越来越不适应人民群众对于公共文化服务的要求,文化馆必须进行供给侧结构性改革,引进社会力量,创新服务机制,由传统性文化馆转型为现代型文化馆,以新的模式,继续推进全民艺术普及。
手势是一种多方面的通信方式,在非语言交流和人机交互中扮演着重要的角色,它们为人机交互(HCI)提供了一种具有吸引力的方案。其中最开始的交互方式,是通过数字手套,生物肌电,kinect深度设备等外接硬件,逐渐发展为基于计算机视觉算法的方式,深度学习的最新进展极大地提高了图像识别的性能,这种方式脱离硬件设备,符合人们方便快捷的使用习惯,但是在手势变化、光照变化或背景复杂的不利现场情况下,手势识别仍然存
(1)随着5G新空口信号处理技术和超大规模MIMO(Multiple Input Multiple Output,MIMO)密集组网用户技术的广泛运用,当前通信系统中信道传输容量及信号调制技术方案不易匹配超高密集组网应用场景。本文在大规模多输入多输出(MIMO)通信系统背景下,对基于卡尔曼滤波算法下的滤波器组多载波技术FBMC调制技术方案进行研究。因FBMC调制技术方案在超大规模MIMO密集组网和
空间众包是指任务执行者前往特定地点完成众包任务,该工作模式已被大众广泛研究使用。空间众包工作模式包括工人招募与任务分配两个环节。工人招募中工人用户向服务器提交个人位置信息进行注册时会存在具体位置隐私泄露问题;任务分配环节中空间众包服务器通过任务分配算法将任务派发给工人用户,会存在工人区域位置隐私泄露以及时间开销过大的问题。针对以上众包工作模式存在的问题,本文所完成的工作包括以下内容。(1)研究直接