论文部分内容阅读
近年来,高清视频设备的推出使得基于行为识别技术的人工智能在智慧安全城市、智能家居和军事安防等领域得以飞速发展。广泛的应用前景和经济价值让行为分析与识别这一技术迅速成为计算机视觉领域的研究热点。传统的行为识别算法通常分为运动前景检测、特征提取以及训练识别三个步骤。虽然该方法的识别率尚可接受,但是其鲁棒性不高,且工作量巨大。此外,实际场景中目标之间多有遮挡、背景复杂多样以及拍摄角度不固定等因素都造成传统方法识别困难甚至失效。本文旨在利用卷积神经网络(Convolutional Neural Networks,CNN)改善传统行为识别方法中存在的这些问题,在提高算法鲁棒性的同时尽量提高识别的准确率。针对背景减差法和帧间差分法在运动幅度不太大的情况下无法提取完整前景的缺点,本文提出基于高斯差分(Difference of Gaussian,DoG)图像的人体剪影提取算法。该方法利用两张相邻高斯尺度空间的图像相减构造包含人体轮廓信息的差分图像,然后对其进行二值强化、形态学处理等操作得到粗略的人体剪影图像;第二步使用阈值对每行的粗略人体剪影区域进行扫描检测,再经闭运算等操作后得到完整准确的人体剪影图像。为融合图像序列的时域信息,本文累加周期内的人体剪影图像,生成二维特征图,并将其送入到CNN中进行训练识别。最终,经过网络调参和五折交叉验证等实验后在KTH公共数据集上得到85.3%的平均准确率,证明该识别框架具有一定的可行性。为了更好地处理视频数据,学者们将卷积神经网络扩展到了三维。本文利用3D CNN进行实验,发现特征组合"光流图-帧差图-三帧帧差图"可以取得最佳识别效果。经过网络调参和五折交叉验证等实验后在KTH公共数据集上得到92.0%的平均准确率。其次,通过分析KTH数据集中各类样本数量的比例分布及其对应的准确率,本论文提出使用二次训练、过取样策略和扩展数据集这三种改进方法来证明数据分布不均衡对实验结果确有影响,并以此提高识别率。最终,三种改进方法分别达到93.5%、92.8%和94.7%的平均准确率,为小样本或不均衡数据集的分类问题提供解决办法。此外,利用3DCNN进行行为识别的方法在减少特征提取工作量的同时提高了算法的鲁棒性,即改善了传统识别方法中存在的问题。