论文部分内容阅读
视频图像中的文本信息作为其内容描述的一种形式,包含了十分丰富且重要的表达信息。采用文本这种高级语义形式,在对视频内容理解和索引方面,具有十分重要的科研价值和应用前景。本文研究的是对复杂背景下视频图像文字的提取识别,主要由视频图像中文本信息的定位,以及提取稳健的字符表达特征两大部分组成。
在视频图像文本区域定位方面,考虑到文本在边缘图中表现出高密度分布的特征,本文在基于边缘特征检测的基础上,引入动态制定检测窗口的尺寸大小的文本定位方法。在边缘图投影后对大小进行估算时,由于字符笔画具有较为密集边缘信息,因此对投影出的连续峰值处作为文本行来分析,从而有效的确定出符合当前检测需求的窗口尺寸。利用动态获取到的检测窗口,在边缘图像中依据其边缘强度检测其中的文本像素,通过精定位和细定位两步得到文本区域。
在字符表达特征提取方面,考虑到字符笔画结构的连续性在其划分出网格中的分布,本文构建一种基于笔画相关性进行自适应加权的特征提取方法。首先,采用弹性网格方法将字符划分成多个网格,字符笔画被切分在多个不同但彼此相邻的子网格中;其次,正是由于笔画分割在相邻的网格中,可以计算出邻接子网格在其位置上对应笔画对中心网格有贡献率;最后,分别为不同的子网格中的笔画采用自适应得到的权值对特征进行加权。
将文字研究的算法和图像文字识别的相关技术结合法,编码实现了视频图像文字识别系统。实验结果表明:本文算法能够在复杂的背景中较好的定位到文本区域,并得到满意的识别结果。