论文部分内容阅读
近年来,随着便携式摄影设备的普及和互联网发展,数字图像和数字视频的数量正以惊人的速度增长。嵌入在图像和视频中的文字是图像语义的重要表达方式。如果能够利用计算机自动定位和识别这些文字,就可以让计算机自动理解图像的内容,进而借助已经成熟的文本检索技术来检索图像,从而为基于内容的图像和视频处理提供一种途径。国内外学者在复杂图像文本提取与识别方面做了大量研究,并取得阶段性成果,现有OCR软件处理文档图像取得了很好的效果。但是对背景较为复杂的场景图像和分辨率较低的原生数字图像中包含文本的提取研究还处于初级阶段。本文中,我们将复杂图像文本提取过程分为如下四个步骤:图像二值化处理;在二值化图像中提取所有连通体;通过条件随机场模型标记文本连通体;对文本连通体进行文字识别。针对提取过程的每一个步骤,本文进行了如下研究:首先,利用小波的优良去噪性,提出了基于小波变换的图像二值化方法。先将待处理复杂图像转化为灰度图像,然后利用小波分解、多层小波滤波、小波重构将图像中的前景文字作为噪音去除,从而得到图像的背景分布;将背景分布与灰度图像做差运算得到图像的前景分布;再计算局部阈值;最终得到二值化图像。通过与其他著名的八种二值化方法进行对比实验,表明基于小波变换的二值化方法优于其它方法。第二,采用深度遍历方法和形态学的膨胀操作对二值化图像进行连通体抽取,选取连通体关键特征,基于条件随机场模型进行文本分割。选取合理的实验参数,CRF模型能够很好地对连通体进行分类,达到文本分割的目的。第三,使用改进的HOG特征对文字进行识别。考虑在倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的复杂图像的字符识别问题,提出基于稀疏编码与梯度方向直方图相结合的SC-HOG方法来进行字符识别研究。此方法先利用稀疏编码得到基向量和稀疏系数,通过重构图像滤除噪音、处理边缘柔化;然后利用梯度方向直方图抽取复原图像的字符边缘梯度特征,削弱倾斜和光照的影响;最后将获取的特征向量送入分类器,实现异态字符的识别。通过在设计字符集和现实字符集上进行字符识别实验表明,SC-HOG方法能够对上述复杂情况的图像中包含的文本进行有效的识别。第四,考虑字符图像尺度和平移影响文字识别率的问题,提出了具有尺度和平移鲁棒性的STRHOG方法来进行字符识别。通过剪裁梯度矩阵处理将字符图像的“边”去除,通过归一化梯度矩阵处理,将待识别的字符图像转换为相同大小,实验表明,利用STRHOG方法处理的图像,文字识别率得到了很大提高。最后,文中对复杂图像文本提取技术做了应用研究,指出了该技术广阔的应用前景。并且利用本文提出的关键技术,构建基于关键词的敏感网络图像过滤系统。