论文部分内容阅读
阅读文本是人类最为普遍的获取信息的方式之一。视频中蕴藏着大量的文本信息可以为视频的分类、索引和检索等提供可靠的线索,因此视频中的文字检测和提取已成为理解视频内容的重要环节,视频中的文本提取相应也逐渐成为视觉内容理解的研究热点之一。 本文首先对图像和视频中的文字检测方法进行了综述,将这些方法分成了三类,即:基于滑动窗口的方法、基于连通区域的方法和混合方法,并对其分别作了介绍。此外,本文还针对视频特点,介绍了利用视频中时间域信息作文字检测的研究现状。 本文进而提出了一种利用Delaunay三角化来检测视频中场景文字的新方法。在该方法中,我们首先利用角点跟踪技术获取当前帧上的角点在视频窗口中的轨迹,然后将每条轨迹作为结点,利用Delaunay三角化算法构建连通图。接下来通过分析相邻轨迹间的空间临近性、运动模式一致性、局部区域不变性和Canny边缘重合性,本文对所构建的图表示作进一步裁剪和筛选,所得的子图被视作候选字符区域。我们进而通过启发式规则,去除掉其中的假阳性候选字符,并最终合并成单帧图像中的文本行。 视频中往往还会出现文本大小和位置可变的情况。针对这一问题,我们进一步提出了一种新的基于Delaunay三角化表示的多尺度视频文本跟踪算法。在该方法中,我们首先利用文字笔划两侧的梯度对称特性对Canny边缘进行过滤,并根据角点的空间位置来筛选文字相关的角点,使单帧图像上的文字检测准确率得以进一步提高。接下来,我们利用图像金子塔算法,在多尺度下进行了大小可变的文字检测。最后,我们提出了视频中的场景文本跟踪算法,可将单帧中检测到的场景文本在随后的帧中快速定位。在文本跟踪过程中,我们还分析了文字的运动模式,以对跟踪算法作进一步针对性优化。 在多个基准库上的实验结果表明,本文提出的方法可检测与跟踪视频中的场景文字,并在准确率、召回率、F-量值等指标上相较现有方法取得了更好的性能。