论文部分内容阅读
随着数字存储技术的发展,数字图像和视频图书馆等应用使得基于内容的检索成为研究热点,而从数字图像中提取文字的技术是基于内容检索的关键。
从图像中提取文字的过程主要有以下几个步骤:
1、 文字区域检测。文字区域的检测方法分为四大类:基于边缘分析的方法、基于纹理分析的方法、基于区域分析的方法和基于学习的方法。实际应用中的目标和原则是高效正确地定位文字区域。
2、 文字提取。文字提取是根据文字本身的特征把检测到的文字区域进行二值化,即所有的文字用一种颜色表示,而背景用另外一种颜色表示,从而达到把文字从背景中过滤出来的目的。
3、 文字识别。文字识别过程是将二值化的图像输入到OCR系统中进行识别。
本文研究的重点是复杂背景下的文字检测与提取,其中文字检测使用基于区域分析的方法,该方法通过颜色聚类和连通量分析来实现。本文的算法及实施过程如下:
1、 第一次颜色聚类图像理论表明,通常77%的颜色不会出现在同一幅彩色图像中。本文将这一图像理论应用到文字区域检测的第一次颜色聚类,具体是通过对24bit颜色深度的每个像素低四位清零完成,使得图像颜色深度从256 降低为。这种简单易行的降维处理,为后面的文字提取打下了基础,且提高了运算效率。实验中对大量不同参数的图像进行了处理、分析,结果表明降维后图像中的文字信息从文字提取的角度来看没有影响;
2、 第二次颜色聚类本文所采用的算法在第二次颜色聚类时,对传统的游程编码做了改进,提出了基于平均颜色的彩色游程算法,即并不是完全一样的颜色才进行聚类,而是设定一个阀值,如果像素间的颜色欧式空间小于阀值则进行聚类,并用平均颜色来代替原来的颜色。采用这种阀值技术为复杂背景下的处理提供了准确性和灵活性;
3、 连通分量分析在完成两次颜色聚类的基础上,对结果进行连通分量分析,即把颜色相近的区域进行标记,而非完全一样的颜色才进行标记。最后在连通分量的结果上根据字符特征限制提取出文字区域,实现彩色图像的二值化,并在此基础上进行一次图像质量的锐化,以突出二值化图像,最后将此二值化图像输入到OCR(Optical Character Recognition)系统进行文字识别。
以上算法采用JAVA编码实现。实验数据表明:本(文)算法对复杂背景中的文字识别准确率达到了89%以上。