论文部分内容阅读
近些年,随着深度学习的快速发展,行人检测和视频浓缩已经成为视频监控分析领域研究的焦点。行人检测是计算机视觉中的一项基本研究,它的主要任务是分析视频图像中是否含有目标行人并对行人进行准确定位。视频浓缩技术是将原视频中的主要内容浓缩成方便人们浏览的浓缩视频,在公共安全领域,为维护社会治安发挥了不可替代的作用。本文的主要研究内容如下:目前实时检测行人算法在遇到人群相互遮挡情况时检测性能很不理想,为解决此问题,将排斥损失函数应用于Faster R-CNN进行行人检测。该排斥损失函数由两个因子组成:其中一个为行人间的相互吸引因子,另一个为与周围其他行人的排斥因子。排斥因子阻止行人候选框转移到周围行人使得在人群中的行人检测鲁棒性更强。实验结果表明,通过排斥损失训练的行人检测算法在人群行人检测当中有着明显改善,得到了较高的检测准确率。针对现实复杂环境中行人检测出现的准确率低和漏检率高等问题,将图像HOG特征与深度学习特征相结合应用于行人检测。首先通过统计图像中像素点的梯度信息以及使用ZF-Net特征生成网络得到行人边缘描述算子HOG特征和行人深度语义特征;然后,利用候选区域生成网络对上述两种特征进行处理并输出多种尺度和宽高比的行人候选区域;最后,使用Fast R-CNN网络对这两种特征和行人候选区域进行处理。在INRIA和Caltech数据集上的实验结果表明,与目前主流算法相比,该行人检测算法在背景复杂情况下可以成功地检测出行人。针对视频浓缩时运动物体之间的相互遮挡和背景的复杂性使得难以准确提取运动物体而导致浓缩比降低的问题,提出了一种基于交互机制卷积双流融合神经网络的视频浓缩方法。首先,对输入的视频帧进行感兴趣区域选取;然后,使用卷积双流融合神经网络分流提取运动物体特征和背景特征并进行特征融合,以减弱运动物体之间相互遮挡的影响;最后,通过交互机制将融合后的特征进行关联性运算,以有效提高运动物体之间及运动物体与背景之间的相关性,再根据相似矩阵进行场景聚类得到关键帧。实验结果表明,通过该网络结构进行视频浓缩,浓缩比和召回率都有所提高。