基于序列到序列模型的蒙古文古籍单词识别研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:sdbradycn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文古籍是研究蒙古族传统文化的丰富、可靠的资料来源。为更好地抢救、保存、挖掘和利用蒙古文古籍,内蒙古大学图书馆启动了古籍文献电子化工作,馆藏蒙古文古籍被扫描存储为图像格式。然而图像格式不利于检索、分析和挖掘,利用文字识别技术将图像格式转换成易于处理的文本格式是最直接的方案。蒙古文文字识别技术大体可分为两类:一类先将单词图像沿书写方向切分成一系列字元,然后再以字元为单位进行识别;另一类不做字元切分,直接以整词为单位进行识别。其中字元切分步骤对图像质量的要求较高,而蒙古文古籍大多年代久远,扫描得到的图像质量较差,存在大量污点、断笔、褪色等现象,而且其中的蒙古文书写变形也较大,使得大部分单词无法被准确地切分成字元,因而整词识别方法更为适合。目前,已有的蒙古文古籍整词识别方法是使用卷积神经网络(Convolutional Neural Network,CNN)实现的。该方法将整词识别看成是图像分类任务,虽然能够实现整词识别,但无法克服集外词问题。针对这一现状,本文的主要研究内容如下:(1)针对蒙古文古籍整词识别问题,提出了一种带有注意力机制的序列到序列(Sequence to Sequence,Seq2Seq)整词识别模型。将待识别的单词图像视作一系列图像帧组成的帧序列,单词的文本标注视作字符序列,通过序列到序列模型实现图像帧序列到字符序列的映射。该模型由一个编码器、一个解码器以及一个注意力网络三个部分构成:编码器由一个深度神经网络(Deep Neural Networks,DNN)与一个双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)组成,输入的图像帧序列通过深度神经网络进行特征提取,之后送入双向长短时记忆网络获取帧序列之间的上下文关系,并生成帧序列对应的特征向量序列;解码器由一个长短时记忆网络(Long Short-term Memory Networks,LSTM)和Softmax分类层组成,它对编码器生成的特征向量序列进行解码,生成相应的字符序列(识别结果);注意力网络用于连接编码器和解码器,使解码器在不同时刻关注到与目标字符最相关的一个或者多个图像帧,从而提高解码器的准确性。本文提出的带有注意力机制的序列到序列整词识别模型,既能解决输入序列与输出序列不等长的问题,同时还能克服集外词问题。实验结果表明,提出的方法在识别准确性上优于字元切分方法和已有的整词识别方法。(2)针对蒙古文古籍识别任务训练数据不足的问题,本文提出了一种基于循环一致性生成对抗网络(Cycle-Consistent Generative Adversarial Networks,CycleGAN)的数据增强方法。CycleGAN由两个对称的生成对抗网络组成,能够在训练数据不成对的情况下实现两个样本空间的相互转换。通过构造循环一致性损失,源图像在转换到目标空间后,还可转换回原始空间。为了获取新样本,可将蒙古文古籍单词图像送入训练后的CycleGAN,先将其转为目标空间的样本,然后再转换为原始空间的样本。通过此种方式,能够获取同一个单词的新样本(图像),从而实现数据增强。实验结果表明,利用增强数据能够进一步提升提出的带注意力机制的序列到序列整词识别模型的识别准确率。
其他文献
高分辨率影像上的地物可辨识度高,形状、颜色、边界等清晰可见,同时也出现同类地物拥有多个光谱特征的情况,单靠光谱信息分类很难达到精度要求,因此纹理特征常常被作为光谱特征的有效补充,被引入到遥感分类中。无论是传统的像元分类,还是后来的面向对象分类,再到现在的深度学习分类,学者们都很重视纹理特征,纹理特征加入分类后能有效提高分类精度。但在纹理特征表达的过程中,有一个很值得关注的问题,那就是纹理尺度问题,
微纳加工制造产业是关系国家利益与国防安全的基础性和战略性产业,是国家综合制造能力和科技水平的体现。随着电子信息产业的高速发展,对微纳加工制造装备的速度、精度和行程
随着人们对美好生活的日益向往,进而对能源需求越来越大,对环境的要求越来越高。在我国能源消费结构中,煤炭占比高达60%。燃煤后不可避免地生成大量的二氧化硫,会对环境造成
农村老年群体患病后将出现医疗风险和可支配财富的不确定性,此时可通过新农合发挥本质功能减少这种不确定性;同时,患病后信仰宗教,也是应对不确定性的一种心理慰籍途径。现有
本文研究描述环柱状血管化肿瘤生长模型的偏微分方程自由边界问题,重点关注自由边界的渐近行为与稳态解的分歧现象.全文共分为三章.在第一章中,我们介绍本文研究问题的相关研究以及主要结果.在第二章中,我们讨论径向对称的环柱状血管化肿瘤生长模型自由边界问题稳态解的存在性与自由边界的渐近行为,即:dR(t)/dt=μ/R(t)∫aR(t)r(u(r,t))-udr,u∈(0,u),u(r,0)=u0(r),其
随着再生沥青路面技术在全世界范围内广泛地应用,对沥青再生的研究涌现了丰硕的成果,也取得了重大的进展。然而由于目前尚不确定再生沥青混合料中新旧沥青具体的融合程度和实
在自然界中,海底通常是由各种不同种类的沙砾碎石组成,具有一定的孔隙率,会导致波浪要素发生变化,如波高和波长的变化,因此海床的渗透性就不该被忽略。海滩的稳定性也受波浪
纳米贝氏体组织具有良好的综合力学性能,广泛在桥梁、舰船、滚动轴承、铁轨和车辆装甲板等方面显示了潜在的应用。贝氏体的韧性和热稳定性比马氏体高,故纳米贝氏体用于热作模
聚合算子是关于信息融合的数学模型,它的作用是将多个输入信息融合后得到单个输出.在实际应用中,聚合算子的结构与选择是一项复杂且重要的工作.由于聚合算子决定了融合效果的优劣,所以选取合理的聚合算子对于信息融合是至关重要的.2-一致模作为一种非常重要的聚合算子,在许多领域都有着广泛的应用,比如模式判别、神经网络、数据融合等.文献[43]作者给出了2-一致模的大致结构,但是对于其中两种类型C_10、C_0
“截贿”,亦称为“劫贿”,其并不是一种规范的法律用语,而是泛指在贿赂案件中时常发生的一种“吃黑”现象。对于“截贿”行为的定性,刑法学界尚未有定论,同时目前司法实践中对于“截贿”行为的处理方式也备受争议。本文在厘清“截贿”行为的概念、行为主体、行为方式、行为对象的基础上,对“截贿”行为进行了分类,同时对目前“截贿”行为存在的定性争议进行了论证分析,而后基于论证分析所得结论对不同类型“截贿”行为的司法