论文部分内容阅读
图像文本识别是数字图像处理和计算机视觉领域的研究热点与重要问题。与扫描图像相比,复杂背景和自然拍摄图像存在:1、文本字体和笔画粗细多样;2、文本字符排列布局多样;3、背景颜色和纹理复杂多样;4、相机视角与载体扭曲引起字符几何形变;5、光度不均与噪声导致图像解析度低下等特性。上述特性使得针对复杂背景和自然拍摄图像的文本识别成为一个具有困难和挑战的对象识别,而并非简单的光学字符识别(OCR)问题。OCR对输入图像在文本结构规范上的要求与限制,使得目前基于OCR技术的识别框架存在较大的局限性。虽然可以通过改进前期文本定位和预处理环节来为OCR提供结构化和规范化更好的输入从而获得识别率的一定提升,但这些环节的优化是困难和受限的。区别于基于OCR技术的识别框架,本文提出基于局部特征的文本识别框架。该框架利用图像检索原理和技术,通过构建模版字符图像库,采用图像局部特征匹配来实现复杂背景图像文本识别。针对局部特征的不同应用和处理手段,本文实现了基于Bag-of-Words Model和基于Point-to-Point Matching的识别系统。与基于OCR技术的框架相比:1、免除了区域增强,二值化,图层分析,几何归一化等一系列复杂的预处理环节;2、通过采用具有几何和光度不变性的局部特征,并引入针对性的投票算法和几何一致性验证,克服了OCR对于文字旋转,不规则排列,图像解析度不均,视角变换和扭曲等条件下识别的局限性;3、通过构建多语种和多字体的模版字幅图像库,实现识别在语种和字体上的透明与鲁棒性。本文重点以中文,日文,韩文,英文,阿拉伯文为基础,在单字符,多字符,自然拍摄图像上进行了大量对比实验,结果显示基于局部特征技术的识别框架在处理能力和识别准确率上都有良好的表现,更加适合复杂背景和自然拍摄图像文本识别。