论文部分内容阅读
为了适应日益增长的视频智能监控的工程应用,用于复杂场景下的视频自动侦测报警等方向的研究蓬勃发展。本文立足于智能视频监控项目,以施工工地为研究场景,主要针对监控视频中的人脸检测、人脸识别以及人体行为识别相关的一系列方法进行调研与研究。本文研究的人工智能相关理论成果向实际智能视频监控产品的转化,无论对学术研究还是实际应用范畴,都具有其积极的意义。本文以工地监控视频中人脸检测与识别和人体行为识别为研究课题,重点研究了以多人脸目标以及小人脸目标为检测对象的人脸检测技术、人脸识别技术以及人体行为识别技术等,主要研究了以下内容:首先,根据工地场景中存在的人脸目标小且多以及目标尺度不一等问题,介绍了一种基于单阶段神经网络的人脸检测算法。通过算法中的尺度不变设计和上下文模块设计,训练中的损失函数设计和在线难例挖掘,使得该算法能够解决本文任务中的目标多尺度问题和小目标、多目标问题。本文通过实验在公共数据集上证明了该算法的在精度上的优越性以及在项目应用中精度和速度的可行性。其次,根据检测到的人脸作为识别对象存在分辨率低、噪声干扰多等导致人脸信息不充足的问题,介绍并改进了基于附加角度边界损失的人脸识别算法。通过在网络训练过程中增加一个角度边界损失,使得网络更容易收敛且具有更好的鲁棒性,还能使得类间距离更小以及类内距离更大,使得不同类别特征更加可分。另外本文改进了其网络结构,使其更适合于人脸特征提取任务,通过实验证明了其有效性。该算法能够解决上述人脸信息不充足的问题,从待测对象中提取出可分的人脸特征,本文在公共数据集上的实验证明了该算法精度的优越性并在项目应用中显示了精度和速度的可行性。此外为了使该任务在项目中具有更好的鲁棒性,本文还设计了一个多帧人脸识别流程。最后,根据实际场景中的人体行为难以识别以及场景复杂干扰因素多等问题,介绍了基于骨架的时空图卷积行为识别算法。通过将卷积神经网络思想由传统图像卷积拓展到时间域与空间域的三维卷积,另外提出利用图卷积的方法和子集划分策略,使得针对骨骼的人体行为识别可以通过神经网络更好的自动提取行为特征。通过实验在公共数据集上证明了该算法的优越性以及在项目中的可行性。为了解决复杂场景干扰问题,本文还设计了一个二次行为识别流程。