论文部分内容阅读
随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大量的视频用于辅助教育、术前宣教、远程医疗等。为了对蕴含了人物、场景、对象、行为和故事等丰富的语义信息的媒体数据进行高效快捷过滤、浏览和检索、非线性编辑等,人们提出并发展了视频的内容分析和基于内容的视频检索技术,以实现语义级的内容描述与应用。让计算机按照人的主观感觉和理解来表示媒体内容。如何跨越底层特征和高层语义间的语义鸿沟,以语义概念来管理、访问视频数据库,已成为多媒体领域颇具挑战的研究课题。在视频的内容分析过程中,特征的提取与描述是至关重要的一步。手术视频有其独有的特点,比如手术室中医务人员的着装颜色基本为墨绿色,手术室中的病人除了需要手术的部分,基本用手术布遮盖,有无影灯在手术过程为开的状态。根据这些特点,为了给手术事件建模,本文定义了医务人员指示器、手术部位检测器、无影灯开关指示器等视觉特征。隐马尔可夫模型作为一种统计分析模型,尽管它的状态不能直接观测到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。因此非常适合引入到基于语义的视频内容分析领域。在本文就通过将隐马尔可夫引入到基于语义的手术视频领域内容分析领域。基于隐马尔可夫模型进行基于语义事件的视频分析,不但考虑了事件特征之间的相似性,而且考虑语义事件之间的时序关系,为提高视频内容分析的准确率提供了理论上的可能。本文的实验基于五个完整的手术视频样本,并且已经人工标注过。通过样本重估了各个手术事件在各个特征的概率分布,并且通过Baum-Welch算法重估了状态转移矩阵,重估了一个隐马尔可夫模型。整个实验过程采用交叉留一验证的策略,对每一个待测试样本采用Viterbi算法来识别每个以秒为单位的视频单元,最终产生一个混淆矩阵来呈现分析的结果。目前的实验结果表明,对于选定的语义特征,有些事件的区分度比较高,则识别的正确率就比较高。一般的手术事件识别率能达到70%以上,证明采用隐马尔可夫模型对视频进行内容分析是可行的。