论文部分内容阅读
为了在大量的视频数据中有效和准确的搜索到用户感兴趣的信息,对基于内容的视频信息智能搜索算法进行了研究。一方面,基于内容的视频搜索算法已经成为研究的热点。它可以通过基于关键帧的语义概念检测的方法进行视频索引,从而实现查询和搜索。该方法可以搭建视频高层语义和底层特征之间的联系。另一方面,随着计算机技术的进步、人工智能技术的发展和数据的大量增加,采用深度学习方法直接对视频进行处理已经越来越受到关注。它可以提取视频的空间特征,同时保留时间信息。对视频信息智能搜索算法的研究主要包括镜头边界检测、关键帧提取、语义概念检测以及基于深度学习的视频搜索等算法。(1)针对镜头边界检测存在的冗余问题,提出了一种基于图像熵和局部关键点特征的镜头边界检测算法。镜头边界检测是关键帧提取和视频搜索的第一步,对信息索引、摘要和其他基于内容的视频数据处理来说非常重要。该方法首先利用图像熵检测视频渐变镜头和候选的突变镜头,然后利用候选的突变边界帧和它们的相邻帧之间的局部关键点特征的匹配率等技术去除冗余的候选突变边界,从而得到最终的突变边界。有效的镜头边界检测有助于提高关键帧提取等算法的性能。(2)针对关键帧提取算法特征选取单一而受视频类型多样性限制等问题,提出了一种加权的多特征的关键帧提取算法。该算法在每个检测镜头内,采用基于凸混合模型的多特征聚类算法自动地计算每个特征描述子对应的权值。这些权值用于计算视频帧间综合帧差测度,用于形成一个累积的帧差曲线。然后采用帧间曲线曲率检测算法检测曲线的高曲率点,位于两个高曲率点之间的中心帧被选择为关键帧。提取的关键帧对视频原始数据的充分表示有助于有效的信息搜索和快速浏览整个视频内容。(3)针对用户语义和底层特征之间的“鸿沟”问题,提出一种基于关键帧语义概念检测的视频索引和搜索算法。该算法首先采用优化的基于局部关键点特征的词袋模型进行视频图像表示。然后在语义概念检测部分,利用支持向量机方法构建有监督的分类器对提取的关键帧进行分类和语义概念检测。最后将查询关键词与视频摘要数据库中的语义概念进行映射,排列和返回与用户查询相关的镜头序列,其中镜头内被搜索到的关键帧数目越多,这个镜头被排列的优先权越大。(4)针对深度学习网络训练的复杂性和行为视频类型的多样性问题,在视频分类和搜索中提出了一种基于三维卷积神经网络模型的细调整算法。基于深度学习的方法可以直接对视频的时空特征进行处理。该算法首先通过三维卷积神经网络模型在UCF101视频数据集上预训练得到初始模型。然后初始模型在实验数据集上进一步训练,对已获得的模型参数进行微调,从而获得最终的模型。接着,由最终模型提取测试视频的空间特征和时间特征。在视频特征提取后,采用欧氏距离计算查询视频和测试视频之间的相似度。距离测度值越小,排列优先级越高。最终返回并排列搜索得到的视频实现视频搜索。研究工作一方面基于视频图像底层特征建立了一套视频搜索算法流程。该算法针对不同的数据类型具有可扩展性和鲁棒性等特点。它主要包括三个部分:镜头边界检测、关键帧提取和语义概念检测。另一方面,针对多样化的视频类型,构建了一个基于深度学习方法的视频搜索算法,并通过理论分析和实验验证展示了算法的有效性。基于深度学习的视频搜索算法可以使用单个神经网络模型实现视频时空特征提取和分类,并在使用视频空间特征的同时保留时间信息。综上,经过理论分析和实验验证,提出的算法可以有效的进行视频信息智能搜索等。