论文部分内容阅读
人群计数是计算机视觉领域的一个重要研究方向,它在视频监控、公共安全、交通监测等领域有着广泛应用。主流方法通常采用一个全卷积神经网络学习原图到密度图的映射,对密度图进行积分即为人数。本文对基于全卷积网络回归密度图的人群计数算法展开了研究,针对现有方法存在的问题提出了以下改进。
多尺度问题是人群计数中的难点问题。大多数先进的方法是通过采用多列结构来解决多尺度问题,这种结构需要消耗巨大的资源成本,因而难以部署多个较深的列,而采用更深的网络已经被证明可以获得更好的效果。因此本文提出以单列网络作为共享主干、从高层提取多尺度特征的结构。在提取多尺度特征时,本文提出尺度金字塔模块,尺度金字塔模块使用平行的不同空洞率的空洞卷积,而不是不同大小的传统卷积以减少参数量。实验表明,与多列结构相比,本文提出的以单列网络作为共享主干、从高层提取多尺度特征的结构可以用更少的参数量得到更准确的结果,同时本文提出的尺度金字塔模块可以有效地增加网络对尺度变化的鲁棒性。
现有的基于密度图的方法过分关注了个体定位,然而在人群高度密集的场景下,每个人头仅占用了极少的像素,强制网络准确定位个体是不合理的。针对这个问题,本文提出了一种新的标签模式——局部计数图。在局部计数图中,每个像素值代表落入输入图像中对应r×r区域中的人头数量。因此,细节的空间信息被丢弃,这迫使网络更加关注计数而不是人头定位。通过在计数和定位之间求得平衡,局部计数图可以达到更好的效果。进一步地,本文针对局部计数图提出了基于回归和分类的联合优化方式。本文在网络后端设置两个分支,一个用于回归局部计数图,一个用于对各区域进行分类,所属类别即为人数。实验表明,本文提出的局部计数图相比于密度图具有更好的效果,且基于回归和分类的联合优化的方式加快了收敛速度,并得到了更好的人群计数效果。
现有的人群计数算法多采用全卷积网络进行密度估计。由于卷积操作的感受野是局部的,全卷积网络在建模全局区域之间的关系时存在本质的限制。然而在人群计数任务中,场景中不同密度的区域之间存在很强的相关性,这可以用来提升人群计数的性能。受图卷积网络启发,本文提出了区域关系感知模块来捕获和利用区域间的关系。该模块利用空间注意力机制自适应的将图像划分成不同的区域,并根据这些区域划分将输入特征图池化为一个特征向量来作为这些区域的原始特征表示。之后该模块构建了一个完全连接的有向图,图中每一个节点代表一类相似的区域,而节点之间的边是可学习的。图卷积网络被用来学习在不同区域之间传递信息,产生具有关系感知的新的区域表示。通过自适应地调整节点之间边的权重,来捕获不同区域之间的关系。最后这些区域表示根据注意力图被扩展成特征图,并与输入特征图融合以进行更准确的预测。实验表明,本文提出的区域关系感知模块可以有效地提升人群计数的精度。
多尺度问题是人群计数中的难点问题。大多数先进的方法是通过采用多列结构来解决多尺度问题,这种结构需要消耗巨大的资源成本,因而难以部署多个较深的列,而采用更深的网络已经被证明可以获得更好的效果。因此本文提出以单列网络作为共享主干、从高层提取多尺度特征的结构。在提取多尺度特征时,本文提出尺度金字塔模块,尺度金字塔模块使用平行的不同空洞率的空洞卷积,而不是不同大小的传统卷积以减少参数量。实验表明,与多列结构相比,本文提出的以单列网络作为共享主干、从高层提取多尺度特征的结构可以用更少的参数量得到更准确的结果,同时本文提出的尺度金字塔模块可以有效地增加网络对尺度变化的鲁棒性。
现有的基于密度图的方法过分关注了个体定位,然而在人群高度密集的场景下,每个人头仅占用了极少的像素,强制网络准确定位个体是不合理的。针对这个问题,本文提出了一种新的标签模式——局部计数图。在局部计数图中,每个像素值代表落入输入图像中对应r×r区域中的人头数量。因此,细节的空间信息被丢弃,这迫使网络更加关注计数而不是人头定位。通过在计数和定位之间求得平衡,局部计数图可以达到更好的效果。进一步地,本文针对局部计数图提出了基于回归和分类的联合优化方式。本文在网络后端设置两个分支,一个用于回归局部计数图,一个用于对各区域进行分类,所属类别即为人数。实验表明,本文提出的局部计数图相比于密度图具有更好的效果,且基于回归和分类的联合优化的方式加快了收敛速度,并得到了更好的人群计数效果。
现有的人群计数算法多采用全卷积网络进行密度估计。由于卷积操作的感受野是局部的,全卷积网络在建模全局区域之间的关系时存在本质的限制。然而在人群计数任务中,场景中不同密度的区域之间存在很强的相关性,这可以用来提升人群计数的性能。受图卷积网络启发,本文提出了区域关系感知模块来捕获和利用区域间的关系。该模块利用空间注意力机制自适应的将图像划分成不同的区域,并根据这些区域划分将输入特征图池化为一个特征向量来作为这些区域的原始特征表示。之后该模块构建了一个完全连接的有向图,图中每一个节点代表一类相似的区域,而节点之间的边是可学习的。图卷积网络被用来学习在不同区域之间传递信息,产生具有关系感知的新的区域表示。通过自适应地调整节点之间边的权重,来捕获不同区域之间的关系。最后这些区域表示根据注意力图被扩展成特征图,并与输入特征图融合以进行更准确的预测。实验表明,本文提出的区域关系感知模块可以有效地提升人群计数的精度。