【摘 要】
:
切分作为OCR识别系统的前期工作,是一个重点与难点,为保证识别的正确性,对切分工作的准确度与高效性的要求就显得尤为重要。托忒蒙古文是粘连性语言,字母与字母通过主干线相
论文部分内容阅读
切分作为OCR识别系统的前期工作,是一个重点与难点,为保证识别的正确性,对切分工作的准确度与高效性的要求就显得尤为重要。托忒蒙古文是粘连性语言,字母与字母通过主干线相连,之间无空白间隙,字母在字首、字中、字尾不同位置时存在三种书写方式,字体变形较大,切分难度高。基于上述原因,本文在分析了蒙文实际研究现状与切分技术的发展现状后,采用了积分投影法结合轮廓跟踪法的字母切分方法。本文的研究目的是在分析托忒蒙文文字特点的基础上,选取对托忒蒙文文字最为合适的切分方法,并对字符切分过程中遇到的难点问题进行了研究。下面介绍本文所做的基本工作。(1)对扫描得来的文档图像进行预处理,分析并选取中值滤波算法去噪,选择最大类间方差法进行二值化,最大化消除图像干扰信息,为后面字母切分的准确性做好前期工作。(2)将图像逆时针旋转90度,原本竖直的主干线呈水平分布,文档图像中的文字方向也呈水平分布,更便于进行切分。针对托忒蒙文字母中独特的笔画附件可能产生的误切分参考了标记锁的解决方案,利用形态学运算进行一系列开闭运算,将笔划附件划归回邻近词段,避免产生行的误切分。(3)采用积分投影法进行字母切分实验,但由于托忒蒙文单词普遍字母相连的特点,切分效果不理想,存在误切分、过切分。针对误切分问题联合了轮廓跟踪法,针对过切分问题利用Ramer-Douglas-Peucker算法对蒙文单词外轮廓进行近似多边形的计算,字母切分处理效果以积分投影法结合轮廓法效果最佳,实验用30幅文字图像,共计66715个字母,切分准确率可达到97%以上。
其他文献
随着中国智能工业的升级调整,人口老龄化以及人力成本的提升,“智能制造2025”已从概念走向了实际,移动机器人技术在未来的发展中已然成为了一股不可或缺的力量。其中,路径规
模具是制造业发展的基础,被称之为“工业之母”。新疆地区模具行业整体发展基础薄弱,信息化水平低,在国家“一带一路”提出的背景下,新疆由于其特殊的地理位置,与中亚各国相
随着下一代基因测序技术的发展,基因组序列数据正以指数速率持续增长。据估计,每一个人类个体的基因组约含三十亿个字母,存储这些信息需要使用大容量硬件设备,需要花费巨大的
机会网络是一种利用节点移动带来相遇机会进行数据传递的自组织网络。在传递过程中,机会网络不要求源、目的节点间存在一条连通的链路。基于机会网络这一特点,传统的无线网络
容迟网络(DTN)作为无线网络研究一个新型课题,由于其存在间断性连接、拓扑频繁割裂、移动性、较高的端到端时延等网络特性,DTN采用“存储—携带—转发”这种新型的路由模式来
在片上网络(Network on Chip,NoC)中,NoC路由算法是影响网络性能的重要因素。在片上网络当中.,IP核(Integrated Protocal Core)之间相互通信需要相应的路由算法,路由算法的好
随着电子技术的飞速发展,PCB中的电源完整性问题日益突出,这些电源完整性的问题也给PCB的设计带来了巨大的挑战。而卫星上的PCB又因为其特有的不可维护性,一旦在太空环境中出
郭味蕖作为一名优秀的中国画画家,不但继承了传统绘画技法,而且吸收了西方印象主义绘画元素。他的一生致力于将中国绘画发扬光大,不断的进行实践和研究,从而形成了一套强有力
在目前的光学领域研究中,很多的电寻址纯位相液晶空间光调制器,它们的平均位相调制都能达到甚至超过2pi,但是其位相的闪烁效应却依旧十分明显。位相闪烁效应极大地限制了其在
近年来,人类向大气中排放越来越多的污染气体,这些排放物极大地改变了大气痕量气体的浓度廓线结构,进而导致一系列全球性气候问题。OH自由基是大气中最重要的氧化剂之一,在地