手机拍摄文档图像质量评价及汉字识别方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:mhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展、智能手机等移动设备的广泛普及与社交网络的不断壮大,海量的图像数据在网络中传播并逐渐成为人们生活中不可或缺的主要信息媒介。不同于文字信息可通过关键词进行检索且可任意编辑处理,图像所要表达的内容却需要通过识别来确定,从而影响人们从图像中找到关键或者感兴趣内容的效率。因此,有一个准确并且快速的识别方法变得尤为重要。  光学字符识别(OCR)技术作为图像识别领域的一大重要研究热点,主要针对文档图像中各种语言、字体的字符识别,被广泛应用于各种证件识别、票据识别、标志牌识别和文档分析等各个方面。此外,经过多年发展,OCR技术已可结合不同平台进行开发,市场应用也日趋成熟。  现有的字符识别方法基本可分为预处理、文本定位与字符分割、特征提取、分类识别及后处理等几大阶段。本文所要研究的字符识别系统是针对手机拍摄的文档图像字符识别,主要针对的语言为中文。由于不同环境因素的影响,手机拍摄的文档图像常出现模糊、倾斜、光照不均等不同降质情况,传统OCR引擎如Tesseract OCR在识别此类图像时往往效果较差。因此,为提高整体字符识别准确率,本文研究的识别系统包括图像质量评价和识别两大步骤,其中识别过程又包括图像预处理操作、Tesseract OCR字符识别及识别后处理操作。对输入文档图像,首先进行质量评价,对于拍摄出来比较模糊以至于难以识别的文档图像提示用户重新拍摄,否则进行下一步识别处理;预处理操作步骤包括图像的二值化处理、图像倾斜校正以及文本行切分操作;在服务器端通过预处理操作后的图像使用Tesseract OCR进行识别,得到初始识别结果后进行后处理操作,其中包括基于条件随机场的后处理改进方法和基于统计分析的后处理改进方法。本文实现的手机拍摄文档图像质量评价与识别系统在满足应用实时性的同时,在识别准确率方面也表现良好。
其他文献
近年来,随着运营商的重组以及新的竞争格局逐步形成,面对迅速发展的通讯技术、激烈竞争的市场形势、新业务不短增加,新技术不短涌现,为了满足客户更多更高的要求,提高联通运营商的
概率检索模型是动态信息检索系统的组成部分。概率检索模型的任务是计算文档集合中各个文档的相关得分,其结果是检索系统返回的文档排序的主要依据。概率模型的性能优劣直接影
富媒体资源是指以文本、图片、音频、视频、Flash及其组合为表现形式的数字化作品或素材。作为数字作品中的一种,其应用越来越广泛,由于富媒体资源具有易传播、易复制且几乎无
随着数字媒体设备的迅速发展和广泛应用,多媒体产品近年来呈现出爆炸式的增长趋势。由于在数字图像,视频处理的各个领域:采集、显示、存储、传输、压缩等都需要进行质量评价,因
近年来,随着互联网上文本数据的急剧增长,如何利用自然语言处理技术高效地对海量数据进行处理,成为人们关注的焦点。句法分析作为自然语言处理领域的基础技术,是对文本进行深入理
以Web3D为代表的虚拟现实技术,因具有浸没感、交互性和构想性等特点在医疗、军事、工业制造、教育、旅游等各领域得到了广泛应用。EAST(Experimental AdvancedSuperconducting
高阶多项式矩阵的行列式计算是符号计算中的一个重要研究课题。因其矩阵元往往是多变元高幂次多项式,故采用传统的子式展开或Gaussian消元法将带来巨大的中间表达式膨胀,从而导
多目标跟踪问题是计算机视觉领域的一个重要问题,涉及模式识别与智能系统、传感器、图像处理、统计与机器学习等多个领域的相关技术。多目标跟踪的主要任务是对视频序列中的多
ESL设计和验证是一种新兴的电子设计方法,它提供给软件和EDA工程师提供一个虚拟平台,用以进行硬件系统架构的探索和嵌入式软件程序的开发。通信系统是一个结构复杂的系统,在对原
随着智慧城市和平安城市的建设,以及摄像头成本的降低,越来越多的摄像头被部署到城市的大街小巷,这导致视频数据的爆炸式增长,从而对视频分析处理技术的需求也越来越急迫。在本文