论文部分内容阅读
随着数字化信息时代的发展,OCR的诞生大大减轻了文字录入工作人员的负担,以其特有的将纸质文字转化为电子文档的功能受到各大图书馆和政府工作部门的青睐,但OCR也有其弊端,对于扭曲的图像其文字识别率低,而扭曲的图像往往是获取书籍页面图像得到的。为解决这一问题,本文介绍了国内外近几年对扭曲图像校正方法,分析了连通域标志方法和文本线提取方法校正扭曲文本图像的优劣,然后提出了基于文本行重构的扭曲文本图像校正方法。首先介绍了现阶段国内外对扭曲校正的研究现状,第二部分简述了研究和实验中用到的图像处理的基本理论知识,如灰度化,二值化,图像剪裁等,并说明了这些算法在系统中的具体作用,第三部分分析了扭曲图像的特征,连通域标志方法的优劣,进而进行了系统的总体方案设计,分析了其可行性,第四部分为基于多文本线行重构研究部分,详细的讲述了研究中的核心算法及作用,第五部分为实验中各个功能的实现,包括图像预处理,图像膨胀,文本线提取,图像重构和边界处理,其中后三个功能是系统的核心组成部分。图像预处理模块将图像处理为适合系统使用的图像,膨胀模块利用膨胀的方法模糊文字以及文字间的关系,文本线模块根据膨胀区域的特性进行细化得到每条文字行的曲线,再利用改进的模板搜索方法获取每条曲线的样值,通过最小二乘拟合得到近似的曲线,图像重构模块根据设定的规则进行图像的重构,为使扭曲图像的边缘文字更形象化,边界处理模块对边界文字进行了提取,在边界提取过程中,根据大量的扭曲图像文本线的统计分析得到了判断书籍左右页的规律,将提取的边界文字进行差值运算,使其与正文文字大小一致,最终拼接该边缘图像得到最终的校正图像。最终根据实现的系统以及测试标准,利用汉王OCR对校正前后图像的识别率对比作为最终评价标准,对比了利用连通域标志方法和单一文本线校正方法和本文方法的优劣。实验结果表明,本研究的设计方案有较好的实用价值。