论文部分内容阅读
随着城市人口的显著增长,人们物质生活水平不断提高,各类大型人群集聚活动不断增多,极易导致踩踏安全事故。对人群场景的智能实时监控引起了重点关注,通过对实时监控视频自动化识别和分析人群密度,及时作出防范措施,对保障社会公共安全有重要意义,也对城市规划、公安侦查、交通监管等领域有重大作用。近年来人群计数算法已成为国内外计算机视觉领域的研究热点,但由于人群场景不一、严重遮挡、背景混淆、透视效应等问题,给研究带来了极大挑战。传统的人群计数算法通常采用基于检测或回归的算法实现,往往只适用于低密度人群场景。人工智能和卷积神经网络等技术的出现,给人群计数问题带来了新转机,但多数已有算法仍只适用于特定场景,难以适应尺度的变化。本文设计了一个多尺度扩张卷积神经网络(multi-scale dilated convolutional neural network,MSD-CNN)用于人群计数,所作的主要创新总结如下:1、采用了密度相关的几何自适应高斯核。因几何自适应高斯核在稀疏人群场景下容易造成较大误差,本文结合场景中人群密度等级来选取不同的β值,从而调整人头尺寸大小以适应不同密度的人群场景,生成更加真实的参照密度图。2、在单列的网络结构中设计了一个多尺度特征融合模块。因多列或者多输入的网络结构存在设计复杂、计算量大的缺点,为了降低网络复杂度的同时适应图像中人物尺度变化,MSD-CNN采用单列的网络结构进行特征提取,并参照Inception模块和VGG网络思想,设计了一个多尺度特征融合模块来聚合不同尺寸的人群特征。3、引入扩张卷积来代替池化过程。因池化层会降低图像分辨率、丢失重要细节特征,MSD-CNN用不同扩张系数的扩张卷积层来替代池化层,在增大感受野的同时保持图像分辨率,防止小尺度特征丢失,提升密集人群场景下的计数准确率。本文在两个极具代表性的公开人群数据集上对MSD-CNN进行了验证,实验结果表明本文提出的MSD-CNN人群计数模型在降低网络复杂度的同时,对不同的人群场景有较好的适应性,可以比较准确地估计人群密度分布和人群总数。与几个主流的人群计数算法相比,本文的方法准确率更高、鲁棒性更好。