论文部分内容阅读
目前的视频语义信息的提取工作还处于研究阶段,主要可以分成两大类,一类是通过提取视频中一些非常特殊的表述语义的对象来获取语义或者反映语义的线索。比如将视频中的文字识别出来,然后对于这些文字进行索引以支持基于关键字的检索。这类方法,一般性能比较好,但是只适用于一些特定的视频类型。另一类,是采用机器学习的方法,对于视频的各种低层特征本身,进行基于事先定义的语义概念的分类,这样获取的语义信息仍然可以通过各种概念的组合进行基于关键字的索引和检索。这类方法的优点是分析的视频内容本身,可以适用于所有类型的视频,但是需要一定的人工干预。
本文对这两方面的方法都作了一定的调查和研究。一是通过对视频中的文字的识别来提取语义信息,提出了针对视频叠加静止文字的基于多帧图像的文字检测和分割算法,提高了视频文字的检索性能。
二是通过对低层视觉特征的分类来提取语义特征,提出了一种通用的基于机器学习的高层语义特征提取算法,还参加了TRECVD2005的视频高层语义特征提取子任务的公开评测。