论文部分内容阅读
近年来,随着我国人口的增长和经济社会的飞速发展,涌入一、二线城市工作生活的人数剧增,人群的聚集活动更加频繁多样,由此导致的人群拥挤、堵塞事件屡见不鲜。尽管政府已经通过增加安防人员数量,增设大量监控摄像头等措施监控和管理人群的数量和流向,仍然力有未逮。传统的人力监控方法经常出现偏差或疏忽,面临人群估计不够准确、缺乏实时性、成本高昂等问题,辅以人工智能的监控与人群计数方法成为重要课题。本文调研了大量人群计数的相关文献,研究基于单张图像的人群计数算法并进行改进,设计了一个端到端的深度卷积神经网络,将人群图像映射至人群密度图并统计出当前场景行人个数。面对人群计数面临的两个难点:大尺寸行人难以识别和行人分布不均匀问题,本文提出两个解决思路。对于前者,设计了混合膨胀卷积模块,通过锯齿状排列的膨胀卷积增加模型的感知野,提高模型对大尺度行人的识别能力。对于后者,设计了具有编码-解码结构的注意力模块,通过多个特征编码单元逐步地学习图像中的语义特征和抽象特征,以及多个特征提取单元逐步恢复特征张量尺寸,融合底层网络的细节信息,获取注意力特征。通过注意力特征排除无关区域的干扰,最终获得更准确、更鲁棒的人群计数结果。此外,本算法通过对特征的逐层扩张,能够得到一张与输入图像相等分辨率的人群密度图。本文首先在数据集Shanghai Tech Part_A上验证了混合膨胀卷积模块和注意力模块的有效性,与常规卷积神经网络相比,加入混合膨胀卷积模块的CAD Net平均绝对误差(MAE)为124.6,低17.9%;加入混合膨胀卷积和注意力模块的CAA Net的MAE为79.5,低47.6%。在该数据集上,本文提出的CAA Net生成的估计人群密度图SSIM指数达到0.83,在大尺度人群(单张图片少于200人)上的误差仅为19。此外,本文还在Shanghai Tech Part_B和World Expo 10两个人群较为稀疏的数据集上对CAA Net进行了训练和测试,得到的MAE和均方根误差(RMSE)分别为22.1和23.5,3.3和4.3,具有较高的计数准确性和鲁棒性。