论文部分内容阅读
现实场景下交互行为是视频中非语言信号的重要组成。对交互行为内在理解包含两部分:交互个体自身运动;个体间特定时空关联约束下运动的相互影响。交互行为是复杂行为的组成要素,在行为识别领域中承接简单动作识别和复杂行为分析,是行为识别中一个重要的研究内容,在视频监控,视频摘要以及视频索引等视觉任务中有着广泛的应用。已有模型可对简单的交互行为进行很好的识别与分析,但性能受限于行为的复杂程度,其复杂性体现在复杂动作结构表征和复杂的时空语境关联,(1)可能存在两个或者两个以上个体之间的交互;(2)有目的性的不同交互行为可能同时发生;(3)交互关系往往随着时间动态变化。本文在总结行为分析任务中结构建模方法的基础上,结合群组行为存在交互的重要表现形式,着重解决群组交互行为分析中的以下难点:第一,在未标定群组时空位置的情况下同时实现群组检测和群组行为识别相对困难;第二,当视频中同时存在多组群组行为时,现有方法难以同时实现不同群组行为类别的判定。第三,交互语境信息是多个体行为理解重要的结构线索,如何全面、准确地挖掘复杂行为中交互语境并用于提取视频关键帧内容,对分析复杂行为中若干动作的时序逻辑和语义结构非常关键。针对上述问题,本文主要展开了以下工作:(1)针对当前群组交互中无法同时实现群组检测和群组交互行为识别问题,基于Granger因果关联挖掘交互语境信息,并分析群组运动模式与个体运动模式之间的独立性,挖掘交互群组成员关系来实现群组检测;基于群组的“个体-群组”的层次结构,多层拓展主题模型,结合交互语境信息建模推理群组行为,实现群组行为的识别。(2)针对多个群组交互行为难以分组识别的问题,在结合交互语境基础上,将场景中的运动约束在特定群组时空区域下,借助所提出的层次化模型,分别实现各群组行为的分析识别。(3)针对基于运动的视频摘要提取中聚类方法忽略时序结构关系导致的语义信息不连续问题,利用交互语境以实现运动时序建模,同时整合视频摘要其他度量方式,在最大程度保留原始语义信息的基础上实现摘要冗余信息的最小化,同时实现视频摘要长度的动态调整。