论文部分内容阅读
随着智能手机等移动终端的快速普及,自然场景下文本图像的获取和传输变得越来越方便,随之而来的是人们对于快速处理图像并获取其中信息的需求变得越来越迫切。如何利用移动设备快速准确的提取图像中文字信息并识别为编码文字成为研究热点。目前,移动应用市场针对印刷体汉字和西方文字的识别软件已经走向了实用化,然而没有一款专门的印刷体藏文识别软件,针对移动应用市场的这一空白,首先根据藏文文档图像特点对行字切分算法进行了研究,然后构建了字符样本集,并设计出了一个适用于印刷体藏文字符的识别模型,在此基础上实现了一款安卓平台上印刷体藏文识别软件。在现有印刷体藏文识别技术的基础上,对藏文识别过程中的行字切分以及分类识别进行了详细的研究,提出了一种结合基线信息和连通域重心的行字切分方法,构建了一个印刷体藏文字符数据集,并设计和训练了584个藏文字符的卷积神经网络模型CovNet对字符进行识别。主要研究工作如下:(1)提出了一种基于基线位置信息和连通域重心的藏文行字切分方法,该方法可以解决藏文文档图像中存在的字符粘连、断裂、重叠等问题,提高行字切分的正确率。(2)构建了一个印刷体藏文字符样本数据集(简称:TCDS)用于卷积神经网络的学习训练。该数据集通过人工采样和合成样本的方法进行构建。其中合成数据,对常用印刷体藏文的584个字符采用多种字体、文字扭曲、背景噪声、笔画粘连、笔画断裂、文字倾斜等特效合成了646套样本数据。TCDS共有736套数据,每套584个字符。(3)设计和训练了一个卷积神经网络模型CovNet对字符进行识别。该模型在TCDS数据集上识别率为99.89%。(4)设计和开发了一个安卓平台上印刷体藏文识别软件。该软件支持在线识别和本地识别,一键式完成所有操作,对用户隐藏中间过程。该软件在实际样本的识别率为99.15%。同时该软件还支持常用藏文短语的汉文检索功能,即可将藏文图像文档识别结果翻译为汉文。综上所述,通过字符样本人工采集和合成的方法完成584个字符、736套共计429824个样本的印刷体藏文数据集构建,并在该集的基础上设计和训练了一个印刷体藏文卷积神经网络识别模型。提出了一套新的适用于印刷体藏文文档的行字切分方法,并设计实现了一款安卓平台上的印刷体藏文识别软件,该软件在实际样本的识别率为99.15%。