高性能与轻量化的显著性检测算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:limengwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显著性检测任务的目标是利用计算机模拟人眼注意力机制,以检测图片中的显著性区域及物体。该技术在很多实际应用中发挥着重要的作用。近年来,基于深度学习的显著性检测算法在检测性能上取得了阶段性的进展,但是其仍存在着诸多亟待解决的难题。首先,如何提升显著目标的边界清晰度并有效抑制背景噪声是提升模型检测性能的关键问题。另外,现有方法大都为提升算法性能的研究,而忽视了对模型计算量、存储量开销的限制。因此,如何平衡模型的性能和开销同样是值得研究的问题。针对第一个问题,本文提出结合边缘信息的高性能显著性检测算法。首先,将预训练后的边缘检测模型的特征融入到显著性检测模型的解码器中,以丰富显著目标的边缘特征。之后,将边缘检测模型和显著性检测模型的低分辨率输出图同时输入超分辨优化网络,进而在提升输出分辨率的同时进一步优化检测结果。最后,本文从监督信息的角度出发,将多层监督机制和结合注意力机制的多尺度池化方法相结合,以丰富网络的全局上下文信息。针对第二个问题,本文提出基于轻量化模块及模型压缩技术的轻量显著性检测模型。本文首先设计了轻量基网络及解码器结构,在此基础上,本文提出两种模型压缩的方案。在第一种方案中,本文使用预训练的基网络进行模型稀疏化训练并进行模型剪枝操作。首先,针对稀疏训练过程中的模型退化问题,本文提出了动态下降的稀疏率设置。之后,在剪枝阶段提出了结合均值变点法的贪婪剪枝策略,能够在保证性能的同时通过渐进式剪枝达到人为设定的轻量化指标。在第二种方案中,本文首先在目标任务上使用随机初始化的模型进行稀疏化训练并剪枝,以获得更符合目标任务的最优轻量化模型。之后对参数进行重新初始化,并使用模型蒸馏的方法进行小网络的重训练。本文将上述两种方法在多个公开数据集上进行了测试,并与现有的先进算法进行了定量和定性的对比实验。大量的实验结果表明,本文算法取得了较好的结果。
其他文献
Ⅱ型糖尿病是一种慢性代谢性疾病,影响全世界近1亿人。在过去的20年里,确诊患有Ⅱ型糖尿病的成人数量飞速增长。而对糖尿病患者来说,患病后可能会引起的其他并发症是医疗花费主要压力,也是造成患者死亡的最大因素。如果可以提前预测出糖尿病患者罹患并发症的情况,将给医生和患者提供很大的方便。也将大大降低医疗费用支出。当下医学上对于糖尿病并发症的检测,还停留在患者表现出症状以后再进行专门医学检测的阶段。一方面随
手部姿态估计在人机交互、交流表达、机器人抓取等众多场景具有重要应用,也是计算机视觉领域中的研究热点。由于彩色图像缺少绝对的深度信息,从彩色图像中估计手部姿态是一种高维非线性映射,同时人手本身具有自相似和自遮挡等问题,因此从彩色图像估计手部姿态仍然是一个充满挑战的任务。本文基于双目彩色图像对手部姿态估计进行分析和研究,研究内容主要分为以下三个部分:(1)针对从二维图像到空间坐标映射的不确定性问题,本
多目标跟踪是计算机视觉领域的研究热点之一,它在自动驾驶、视频监控、人机交互等领域被广泛应用。其主要任务是在一段视频序列中,将不同视频帧的同一个目标对应起来,每个目标形成不同的运动轨迹。主流的多目标跟踪技术几乎都是基于Detection-Based Tracking(DBT)框架,即先利用检测器识别出感兴趣的目标,再利用嵌入模型(Re-ID)预测目标外观的特征向量,根据检测结果与轨迹外观特征的相似度
近年来,随着光场技术的快速发展,基于多聚焦特征的光场深度估计方法取得了显著的进展。焦点堆栈图像记录了场景在不同深度下的聚焦程度。一系列聚焦在不同深度的焦点切片包含了丰富的空间视差信息,能够很好地揭示场景的三维结构。然而,在多聚焦特征提取中,传统方法存在鲁棒性差、精度低的缺点。现有基于卷积神经网络的方法仅仅利用标准卷积来学习可扩展到整个焦点堆栈的滤波器,忽略了焦点切片之间的空间相关性,导致复杂场景下
目标检测是计算机视觉领域中的一个基础性算法,促进了其他上层技术的发展,在自动驾驶、机器人导航和智能交通等多个领域得到广泛的应用。近年来,2D目标检测算法已经趋于成熟,但是3D目标检测算法尚处于发展阶段,模型的性能还有很大的提升空间,因此3D目标检测算法是计算机视觉领域研究的热点之一。针对3D目标检测算法,本文从锚框的设计、特征的增强以及多模态数据融合等方面进行研究,主要工作内容如下:(1)针对3D
随着我国经济社会的高速发展,国家对社会治安防控体系建设日益重视,监控摄像头的覆盖区域不断增加,但在基于监控视频的事件监测方面仍然存在不足。现有智能视频分析方法主要是从视频中获取特征,缺少与外界要素的联动和知识的导引,对事件分析不够系统全面,关键特征不突出。为此,本文针对治安监控视频下群体性事件监测,基于卷积神经网络改进群体性突发事件的关键特征提取方法,基于知识元表示提出融合视频特征的群体性事件监测
多元时间序列广泛存在于社会生活的各个领域,多个变量之间具有复杂的关联关系。分析多元时间序列变量间的相互影响关系,挖掘系统潜在的蕴含信息,对复杂系统的分析与建模具有重要的现实意义。本文以复杂系统的多元时间序列为研究对象,针对多变量间的因果关系展开研究,为预测模型构建合适的输入特征,最终达到精简模型、提高预测精度的目的。本文的研究内容如下:针对传统的Granger因果模型仅仅适用于二变量、线性系统,无
双目立体视觉技术结合不同视角下的场景信息,通过图像匹配算法实现视差图的计算,进而根据三维几何参数计算场景深度,还原三维空间立体模型。在实际图像采集过程中,由于光照、透射、前景遮挡、低纹理等因素的影响,图像匹配成为立体视觉技术的关键步骤,关系着三维立体模型的精度和效率。同时,伴随自动驾驶等领域的发展,对图像深度信息的获取精度和速度有了越来越高的要求。针对以上问题,本文设计了一种改进的半全局立体匹配算
纵火是一种特殊的犯罪形式,具有犯罪动机复杂,调查取证难的特点。纵火除了造成人员伤亡和财产损失外,还可能会产生巨大的社会影响,并在公众中引起心理恐慌。目前,数据挖掘技术正日益成为预防和打击犯罪的有力工具。在纵火预防策略的研究中,从时空模式出发挖掘纵火发生的聚集规律,将有助于警力与消防资源的部署,提升工作效率,减少响应时间。而对团伙纵火的快速识别,将为案件的侦破和预防提供有效的支撑。为了挖掘纵火事件在
显著性目标检测旨在识别出图像中人类最为感兴趣的物体或者区域,并将其完整准确地分割出来,其在计算机视觉领域中扮演着重要的角色,被广泛应用在语义分割、实例分割、目标识别等任务中。经典的显著性检测算法在复杂的场景下,例如:前景目标多、背景和前景区分度不大、背景嘈杂等情况,受限于单模态RGB对外观等特征结构预测能力较弱、对复杂的情况缺乏判别力等,仅使用单模态RGB特征难以获得准确的显著检测结果,因此需要其