论文部分内容阅读
随着互联网技术的飞速发展、智能手机等移动设备的广泛普及与社交网络的不断壮大,海量的图像数据在网络中传播并逐渐成为人们生活中不可或缺的主要信息媒介。不同于文字信息可通过关键词进行检索且可任意编辑处理,图像所要表达的内容却需要通过识别来确定,从而影响人们从图像中找到关键或者感兴趣内容的效率。因此,有一个准确并且快速的识别方法变得尤为重要。 光学字符识别(OCR)技术作为图像识别领域的一大重要研究热点,主要针对文档图像中各种语言、字体的字符识别,被广泛应用于各种证件识别、票据识别、标志牌识别和文档分析等各个方面。此外,经过多年发展,OCR技术已可结合不同平台进行开发,市场应用也日趋成熟。 现有的字符识别方法基本可分为预处理、文本定位与字符分割、特征提取、分类识别及后处理等几大阶段。本文所要研究的字符识别系统是针对手机拍摄的文档图像字符识别,主要针对的语言为中文。由于不同环境因素的影响,手机拍摄的文档图像常出现模糊、倾斜、光照不均等不同降质情况,传统OCR引擎如Tesseract OCR在识别此类图像时往往效果较差。因此,为提高整体字符识别准确率,本文研究的识别系统包括图像质量评价和识别两大步骤,其中识别过程又包括图像预处理操作、Tesseract OCR字符识别及识别后处理操作。对输入文档图像,首先进行质量评价,对于拍摄出来比较模糊以至于难以识别的文档图像提示用户重新拍摄,否则进行下一步识别处理;预处理操作步骤包括图像的二值化处理、图像倾斜校正以及文本行切分操作;在服务器端通过预处理操作后的图像使用Tesseract OCR进行识别,得到初始识别结果后进行后处理操作,其中包括基于条件随机场的后处理改进方法和基于统计分析的后处理改进方法。本文实现的手机拍摄文档图像质量评价与识别系统在满足应用实时性的同时,在识别准确率方面也表现良好。