论文部分内容阅读
视频行为识别是计算机视觉领域里最具挑战性的问题之一。视频行为识别的任务就是利用计算机自动地分析视频数据,从而识别行为类别。视频行为识别在很多领域有重要的应用价值,如智能视频监控、视频检索、人-机交互等。本文研究基于卷积神经网络的视频行为识别,主要工作及贡献如下:(1)基于分段双流卷积神经网络的行为识别以GoogLe Net模型替换双流卷积神经网络结构的AlexNet模型,引入GoogLeNet的网络模型的BN-Inception层,加深网络层数,增加样本的特征表达;同时,在卷积神经网络的学习过程中,将低、中、高等不同级别特征进行多级别、不同程度变换,实现关于行为样本的低级、局部部件等不同程度特征的信息互补。针对卷积神经网络的学习,以预训练网络模型来初始化模型参数,并基于误差反向传播算法进行模型参数的微调,以获取较好的模型泛化能力。将视频在时间轴上分段,分别基于时间流、空间流信息,构建分段卷积神经网络,以实现关于视频行为局部时序结构的有效表达。基于视频数据集UCF101与HMDB51的实验验证了算法的有效性。(2)基于集成学习的行为识别借助集成学习思想,改善行为识别性能。在上述个体卷积神经网络模型学习的基础上,从决策级集成的角度研究了几种基于个体识别模型投票机制的集成学习方式,借助集成模型实现视频行为识别性能的进一步改善。基于数据集UCF101与HMDB51对集成模型的有效性进行了验证。此外,还探讨了基于特征级集成方式的行为识别模型。