论文部分内容阅读
最近几年,由于人群计数在智能监控和安防领域广泛的应用价值和社会意义,使得单张图像和监控视频中的人群计数问题在学术界和工业界受到了越来越多的关注。但是,在现实场景中,严重的遮挡、光照的变化、视角的扭曲、人群分布不均和复杂的场景背景等干扰因素使人群计数问题变得非常具有挑战性。目前还没有行之有效的人群计数算法可以应用于现实场景中,所以准确、鲁棒的人群计数算法也是计算机视觉领域重要的研究方向之一。本论文基于RGB-D图像,尝试更加简单有效地解决人群计数问题。本论文有如下贡献: 1.本文创建了一个大规模的RGB-D图像的人群计数数据集并基于该数据集进行人群计数的相关研究。数据集包含5098张标注图像和241,015个标注人头。RGB-D数据集主要用于评估应用于典型监控摄像机视角下的人群计数方法的性能,同时,去验证深度信息是否有助于提高人群计数的性能。此外,一些仅应用于RGB数据上的人群计数方法也可以在数据集的RGB数据部分上评估其性能。据所知,数据集是目前为止第一个基于RGB-D图像的人群计数数据集,并且与现有RGB数据集相比,在标注图像和标注的人头数上也是最大的数据集。更为重要的是,为了充分考虑不同环境因素对人群计数任务可能的影响,数据集是在不同的场景,光照条件,遮挡情况和拍摄视角下收集而来,这使得它,可以说,是最具多样化和挑战性的人群计数数据集。 2.本文提出了一种双流全卷积神经网络来解决RGB-D数据下的人群计数问题。充分的实验验证了深度信息对于人群计数问题的有效性,利用深度信息可以大幅提高人群计数的性能。通过RGB图像和深度图像不同的融合方法,得出了中期融合在RGB-D数据集上的性能最佳。 3.在现有的只有RGB图像的数据集上,本文提出了的RGB单流全卷积神经网络在MAE和MSE的评估方法上都取得了不错的结果。同时,对比于现有的基于卷积神经网络的方法,本算法简化训练流程,实现端到端的训练。