基于深度学习的人群计数

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:archxws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,由于人群计数在智能监控和安防领域广泛的应用价值和社会意义,使得单张图像和监控视频中的人群计数问题在学术界和工业界受到了越来越多的关注。但是,在现实场景中,严重的遮挡、光照的变化、视角的扭曲、人群分布不均和复杂的场景背景等干扰因素使人群计数问题变得非常具有挑战性。目前还没有行之有效的人群计数算法可以应用于现实场景中,所以准确、鲁棒的人群计数算法也是计算机视觉领域重要的研究方向之一。本论文基于RGB-D图像,尝试更加简单有效地解决人群计数问题。本论文有如下贡献:  1.本文创建了一个大规模的RGB-D图像的人群计数数据集并基于该数据集进行人群计数的相关研究。数据集包含5098张标注图像和241,015个标注人头。RGB-D数据集主要用于评估应用于典型监控摄像机视角下的人群计数方法的性能,同时,去验证深度信息是否有助于提高人群计数的性能。此外,一些仅应用于RGB数据上的人群计数方法也可以在数据集的RGB数据部分上评估其性能。据所知,数据集是目前为止第一个基于RGB-D图像的人群计数数据集,并且与现有RGB数据集相比,在标注图像和标注的人头数上也是最大的数据集。更为重要的是,为了充分考虑不同环境因素对人群计数任务可能的影响,数据集是在不同的场景,光照条件,遮挡情况和拍摄视角下收集而来,这使得它,可以说,是最具多样化和挑战性的人群计数数据集。  2.本文提出了一种双流全卷积神经网络来解决RGB-D数据下的人群计数问题。充分的实验验证了深度信息对于人群计数问题的有效性,利用深度信息可以大幅提高人群计数的性能。通过RGB图像和深度图像不同的融合方法,得出了中期融合在RGB-D数据集上的性能最佳。  3.在现有的只有RGB图像的数据集上,本文提出了的RGB单流全卷积神经网络在MAE和MSE的评估方法上都取得了不错的结果。同时,对比于现有的基于卷积神经网络的方法,本算法简化训练流程,实现端到端的训练。
其他文献
黏着语是语言形态学中的一个语言类别,这一类别的语言需要大量依靠词素的屈折变化来表现文法关系。由于语音识别技术在发展历程中主要的研究对象是分析语或低屈折度语言,因此黏
学位
合成孔径雷达(SAR)是一种主动式微波遥感系统,其结合脉冲压缩和合成孔径技术,实现了利用小孔径天线取得高分辨率的成像特性。因其具有全天候、全天时获取高分辨率雷达图像的工
高分辨率光学图像港口舰船检测与识别技术在民用和军事领域发挥着重要的作用。随着卫星成像技术的发展,遥感图像数据在时间、空间上的分辨率越来越高。传统的使用图像分割或舰
海洋信道通信带宽窄,时-空-频变复杂,而且多途扩展严重,在较高速率通信下,时延扩展能够覆盖几十甚至上百个码元符号,造成严重的码间干扰(intersymbol interference,ISI),为实现可靠
多导人工耳蜗已广泛应用于治疗重度及深度耳聋疾病,其通过电流直接刺激听神经使耳聋患者产生听觉。由于当前人工耳蜗装置提供的电刺激并不能够完全有效地模仿听觉外周生理功能
DSP作为通用的数字信号处理器,在通信、数值运算、图像处理等诸多领域有着广泛应用,其强大的数据运算能力特别适合运算密集的应用场合。现代社会对DSP的应用越来越广泛,对新DSP
X光位置测量对于要求高品质、高稳定性的同步辐射光源具有重要的作用,它是同步辐射装置向广大用户提供可稳定使用光束的必不可少的条件之一,其测量值还是实验用户需要及时了解
交通场景理解是成功实现自动驾驶和车辆导航等应用的关键技术之一。研究视觉系统在处理交通场景信息时的关注特性、视觉敏感度、感知及快速解读能力,对交通场景理解具有重大
信息中心网络作为一种革命性的网络体系结构,它将传统的面向主机的端到端通信模式转变为以内容为中心的通信模式。作为一个崭新的概念,信息中心网络带给网络的革命性改变引人关