论文部分内容阅读
蒙古文古籍是研究蒙古族传统文化的丰富、可靠的资料来源。为更好地抢救、保存、挖掘和利用蒙古文古籍,内蒙古大学图书馆启动了古籍文献电子化工作,馆藏蒙古文古籍被扫描存储为图像格式。然而图像格式不利于检索、分析和挖掘,利用文字识别技术将图像格式转换成易于处理的文本格式是最直接的方案。蒙古文文字识别技术大体可分为两类:一类先将单词图像沿书写方向切分成一系列字元,然后再以字元为单位进行识别;另一类不做字元切分,直接以整词为单位进行识别。其中字元切分步骤对图像质量的要求较高,而蒙古文古籍大多年代久远,扫描得到的图像质量较差,存在大量污点、断笔、褪色等现象,而且其中的蒙古文书写变形也较大,使得大部分单词无法被准确地切分成字元,因而整词识别方法更为适合。目前,已有的蒙古文古籍整词识别方法是使用卷积神经网络(Convolutional Neural Network,CNN)实现的。该方法将整词识别看成是图像分类任务,虽然能够实现整词识别,但无法克服集外词问题。针对这一现状,本文的主要研究内容如下:(1)针对蒙古文古籍整词识别问题,提出了一种带有注意力机制的序列到序列(Sequence to Sequence,Seq2Seq)整词识别模型。将待识别的单词图像视作一系列图像帧组成的帧序列,单词的文本标注视作字符序列,通过序列到序列模型实现图像帧序列到字符序列的映射。该模型由一个编码器、一个解码器以及一个注意力网络三个部分构成:编码器由一个深度神经网络(Deep Neural Networks,DNN)与一个双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)组成,输入的图像帧序列通过深度神经网络进行特征提取,之后送入双向长短时记忆网络获取帧序列之间的上下文关系,并生成帧序列对应的特征向量序列;解码器由一个长短时记忆网络(Long Short-term Memory Networks,LSTM)和Softmax分类层组成,它对编码器生成的特征向量序列进行解码,生成相应的字符序列(识别结果);注意力网络用于连接编码器和解码器,使解码器在不同时刻关注到与目标字符最相关的一个或者多个图像帧,从而提高解码器的准确性。本文提出的带有注意力机制的序列到序列整词识别模型,既能解决输入序列与输出序列不等长的问题,同时还能克服集外词问题。实验结果表明,提出的方法在识别准确性上优于字元切分方法和已有的整词识别方法。(2)针对蒙古文古籍识别任务训练数据不足的问题,本文提出了一种基于循环一致性生成对抗网络(Cycle-Consistent Generative Adversarial Networks,CycleGAN)的数据增强方法。CycleGAN由两个对称的生成对抗网络组成,能够在训练数据不成对的情况下实现两个样本空间的相互转换。通过构造循环一致性损失,源图像在转换到目标空间后,还可转换回原始空间。为了获取新样本,可将蒙古文古籍单词图像送入训练后的CycleGAN,先将其转为目标空间的样本,然后再转换为原始空间的样本。通过此种方式,能够获取同一个单词的新样本(图像),从而实现数据增强。实验结果表明,利用增强数据能够进一步提升提出的带注意力机制的序列到序列整词识别模型的识别准确率。