论文部分内容阅读
从自然场景图像中抽取文本信息有利于场景图像的内容分析,对自然场景的描述和理解具有重要价值,可以广泛应用于图像检索、机器人视觉和盲人导航等领域。尽管传统的文档分析技术已经日渐成熟,但通常只能处理文档上的文本,而对于自然场景中文本字符的处理效果较差,因此自然场景中的文本抽取逐渐成为图像处理领域的研究热点。本文对文本抽取的相关技术进行探索,重点研究自然场景图像中的文本检测与定位方法,提出了一种新的适用于自然场景图像的文本检测方法和两种文本定位方法:1.根据图像中的文本通常在局部区域具有显著性的特点,提出多尺度包围盒视觉显著性模型,并利用该模型设计一种可以融合边缘和纹理信息的候选文本检测方法。首先在Lab颜色空间构造基于边缘和纹理信息的图像同质性,并利用它将图像映射到同质性空间;然后根据多尺度包围盒视觉显著性模型求Lab颜色空间的同质性均值图像;最后求同质映射图像与同质性均值图像的加权欧式距离,作为显著性度量,以提取文本区域。自然场景图像的实验表明,与单纯利用边缘检测或同质性映射进行文本检测的方法相比,文中提出的方法能够更好地抑制背景的干扰,这有利于进一步将文本区域与背景剥离,进行精确的文本定位。自然场景图像的实验表明,与单纯利用边缘检测或同质性映射进行文本检测的方法相比,本文提出的方法能够更好地抑制背景的干扰,这有利于进一步将文本区域与背景剥离,进行精确的文本定位。2.笔画宽度变换已经被证明用于文本定位能取得较好的效果。本文利用视觉显著性的方法对经典的笔画宽度变换方法进行改进,提出一种新的文本定位方法。首先利用本文提出的视觉显著性文本检测方法进行文本检测,二值化后利用改进的笔画宽度变换进行笔画滤波,然后对滤波结果进行连通域分析,得到一系列连通分量,接着根据连通分量的特点,定义了两层过滤机制对连通分量进行验证,最后把精化后的候选文本连通分量聚合成文本行并验证,得到最终的定位结果。自然场景图像的实验结果表明该文本定位方法具有较好的定位性能。3.文本区域内的像素点通常是最稳定极值点,因此本文将最稳定极值区域检测用于文本定位,提出一种新的文本定位方法。首先利用最稳定极值区域检测得到候选的文本分量,根据最稳定极值区域的特点,定义了两层过滤机制进行连通区域验证,最后将验证后的候选文本区域聚合成文本行并进行验证,得到最终的定位结果。自然场景图像的实验结果表明该方法具有不错的性能,能够在确保精确率的同时,提高召回率。