蒙汉英混排文档图像的文种识别研究

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户：luocheng890924

【摘要】

：

目前绝大多数的文字识别(OCR)系统,只能识别单一文种的文字,无法同时识别多文种文字。而现有的大量蒙古文文档图像中不仅包含蒙古文,还混有汉文和英文。如果识别时仅使用蒙古

【作者】

：

范晔斐

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2013年01期

【关键词】

：

蒙古文文档图像文种识别文字提取支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前绝大多数的文字识别(OCR)系统,只能识别单一文种的文字,无法同时识别多文种文字。而现有的大量蒙古文文档图像中不仅包含蒙古文,还混有汉文和英文。如果识别时仅使用蒙古文专用的OCR引擎,那么会造成汉文和英文的无法识别,导致识别效果不佳。本文针对这个问题提出了一种解决方法：先对蒙古文文档图像进行文种识别,将原文档图像中的文字按照文种分为蒙古文类、汉文类、英文类,再调用相应文种的OCR引擎识别文字,最终实现对蒙汉英三种文字同时识别的功能。文中阐述了文字提取和文种识别的方法。文字提取的方法是首先抽取连通域面积和连通域数目特征,采用线性分类器区分文本区域和图像区域；然后运用投影分析和高斯平滑的方法切分列；随后依据连通域外接矩形框之间的位置关系形成文字块；最后使用改进的水滴算法切分文字块。实验结果表明,本文的文字提取方法具有比游程平滑算法和最小生成树法高的提取正确率。文种识别的过程分为粗分类和细分类两个阶段。在粗分类阶段,选择文字的宽度、高度和主干线特征,使用规则进行分类。细分类包括汉文细分类和英文细分类两个部分,两者都选择文字的轮廓作为特征,使用支持向量机对文字分类。实验结果表明,本文方法对文字的识别正确率达到99.65%

其他文献

基于主题的关系数据库外模式研究

外模式对应于用户级,是与某一应用有关的数据的逻辑表示,用户应用程序根据外模式进行数据操作。在理论上,应用程序开发应该针对外模式,而目前实际上都是针对的逻辑模式,并非

学位

外模式主题关系数据库查询

空间数据库中移动对象的反向最近邻查询处理技术研究

近年来，随着全球定位系统、地理信息系统、卫星数据处理、计算机辅助设计及移动计算等领域的迅速发展，针对移动对象的空间数据查询研究得到了国内外研究者的广泛关注，然而，随着移

学位

空间数据库移动对象网格索引反向最近邻查询动态查询

基于swift校园云存储及其去重系统设计与实现

面对快速增加的数据量，如何存储管理数据、如何保证数据的安全可靠成为数据拥有者比较关注的问题。因其可靠性、冗余性、高性价比、伸缩性和底层实现对用户的透明性，基于云的数

学位

云存储去重系统swift软件重复数据删除技术

基于双目视觉的农田作物三维信息获取

作物的三维信息获取在农田机械视觉导航及作物种植、收割、农药喷施、除草和蔬菜嫁接等方面的作用越来越大,可为现代农业作业提供作物生长的坐标信息,具有很大的应用前景。本

学位

双目视觉Mean ShiftSURF三维信息作物

基于蛋白质相互作用加权网络的关键蛋白质识别算法研究

随着蛋白质组学研究的推进，以及高通量实验技术的快速发展，蛋白质组学中关键蛋白质的研究进入了一个新的发展时期。关键蛋白质是生物体存活和繁殖所必需的蛋白质，在生命活动过程

学位

关键蛋白质蛋白质相互作用网络加权网络拓扑结构基因本体基因表达谱

基于TCSP求解RFID复杂事件处理

射频识别(RFID)作为一种高性价比的传感识别的使能技术，日渐在零售、制药、医疗保健和物流管理等领域得到各种大规模应用。然而，RFID事件流具有时序性，动态性，数据量大，包含隐含语

学位

射频识别复杂事件检测时序处理时序约束可满足问题约束求解

基于蜜鑵技术的Ad hoc网络入侵检测系统的研究

移动Ad Hoc网络作为一种无线网络，拥有组网方便、对硬件要求不高、不需要固定中心等特点。虽然Ad Hoc网络最早是针对军事所设计的，但随着软、硬件的高速发展，Ad Hoc网络已进入了

学位

移动Ad Hoc网络入侵检测蜜罐匹配算法防火墙网络安全攻击行为

短信自动分类技术研究与应用

本文对短信分类的关键技术做了深入的讨论。结合贝叶斯分类的文本分类方法和Bigram分词的方法,并提出在移动手机终端进行双层短信过滤模型,对传统的文本分类进行了改进,有效

学位

贝叶斯分类短信文本分类

基于CSS的高精高室内定位技术研究与实现

普适计算力图将以计算机为中心的计算模式转变为以人为中心的计算模式，其目标是构建一个计算和通信无处不在的环境，并在此基础上透明地提供以人为中心的服务。获取物体的位置信

学位

室内定位线性调频扩频防碰撞算法加权校正算法

内存故障检测方法的研究与优化

随着集成电路制作工艺的不断发展和半导体尺寸的日益缩小，存储器的密度越来越大。随着存储器密度和复杂度的快速增长，存储器发生故障的概率越来越高，故障种类也越来越多，这使得存

学位

内存故障检测March Cache算法DDR2结构访存控制PC机

蒙汉英混排文档图像的文种识别研究

与本文相关的学术论文