融合多特征的老挝语文字识别研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:pangpanghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老挝语是老挝人民民主共和国的文字,作为“一带一路”重要盟国的老挝,其研究意义重大,由于老挝语使用人口少,且数字化落后,故从网络直接获取老挝语文本语料较为困难,但存在大量老挝语文本图像,因此,如何从现有文本图像中准确识别老挝语字符序列用以扩充老挝语文本语料,成为目前老挝语自然语言处理研究重点之一。光学字符识别可有效提取文本图像所含字符,但目前老挝语文字识别研究寥寥无几,故本文参考相关文字识别研究,提出一种融合多特征的老挝语文字识别方法,以解决目前老挝语研究工作中的难点,其主要包括以下三个部分:(1)构建ResNet-BiLSTM-CTC端到端老挝语文字识别模型。因老挝句子由字符构成,且以上中下结构组成的字符较多,故在模型中融合音调特征和下位辅音特征辅助模型准确识别老挝语文字。首先,以深度卷积网络提取更丰富的字符结构信息,并通过边框回归矫正单字符包围框,然后利用BiLSTM网络表征更高级的语义信息,最后对预测结果以CTC进行转录获得识别序列。并以Deep BLSTM、DenseNet、Text-CNN 等模型作进行对比,证实了 ResNet-BiLSTM-CTC模型的有效性,准确率达到了 80.45%。(2)在ResNet-BiLSTM-CTC模型基础之上,针对因文本图像质量原因出现的字符断裂、粘连等情况,本文提出了“老挝字符书写等级”,构建结合字符识别损失和字符书写等级辅助损失的多任务学习模型,首先利用ResNet网络作为共享特征提取层,一侧分割老挝语单字符,另一侧拟合字符书写等级,然后二者向量与输入文本图像向量拼接后,通过BiLSTM识别老挝字符序列,最后进行CTC转录获得识别结果。且在进行实验并与其他主流方法对比之后,证明了 ResNet-BiLSTM-CTC 模型融合老挝字符书写等级特征后切实有效,其准确率达到了86.94%,相比之前的工作准确率提升了 6.49%。(3)为获得更准确老挝语文字识别结果,对先前识别结果进行错误分析,发现因模型不能很好区分老挝语相似字符,故对相似字符区分问题进行建模,在模型不同阶段引入Spatial和Channel注意力机制分别关注字符局部形态信息和序列的上下文信息。并针对老挝语相似字符易混淆问题构建Unicode表,辅助区分字符对间的视觉相似性。为了证明其有效性,以老挝语印刷体、手写体以及场景文本图像的识别情况测试模型有效性,实验结果显示,准确率达到了 90.45%。
其他文献
太阳日冕结构的密度、位置和形状短至几秒钟就会发生变化,较大的动态范围,造成望远镜拍摄的日冕结构边缘模糊且噪声较大,使得可视化困难。随着数字图像处理技术的发展,盲退卷积算法对于要求恢复结构准确性和真实性方面提供了科学的理论依据。图像退卷积算法是图像复原增强领域的一个经典问题,因为方程的求解是欠定的,所以在退化模型的构建,清晰图像和模糊核的先验信息,失真效果的抑制,迭代算法的稳定与准确方面,越来越多的
当前,针对代码质量研究十分重要。基于源代码的代码质量分析技术一般借助于静态分析或动态测试方法对源代码进行度量,具有简单、易实现的优点,有助于代码质量的分析。随着开发者社区和代码托管平台成为程序员获取代码的主要途径,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含多种代码质量信息,基于用户评论的代码质量分析可以站在用户角度进行代码质量分析,从而帮助开发者在了解用户的代码使用情况和用户
数据驱动模式是材料基因组计划(MGI)的核心问题,但如何快速获取大量材料数据已成为需要解决的关键问题。目前,材料数据库的共享性较差,很难从公共资源中获取有效的材料数据。因此本文采用文本挖掘的方法从Al-Si合金材料文献中获取有效数据。自然语言处理(NLP)是一种常用的文本挖掘方法,关系抽取(RE)作为自然语言处理的主要任务之一,可以有效地从文献中提取信息。本文采用Al-Si合金实体关系联合抽取模型
随着人工智能技术的发展以及司法数据的公开,司法领域的人工智能研究与应用受到了广泛关注。罪名预测作为法律判决预测中一个重要子任务,它是司法智能辅助系统的重要组成部分。罪名预测任务根据案情描述和事实预测被告人被判的罪名。罪名预测通常被看作司法领域的文本分类问题,已有方法大多采用深度神经网络构建罪名预测模型,在常见罪名的预测方面取得了很好的效果。然而,已有研究对罪名预测任务中的数据不平衡现象关注较少,导
日冕喷流是太阳大气中普遍存在的太阳活动现象,对它的研究有助于揭示太阳大气中的能量传输和释放的机制。它往往发生在相对比较小的区域,和磁浮现和磁对消密切相关。如果能很好的把太阳大气中的喷流识别出来,特别是小的、弱的喷流,就可以清楚知道日冕喷流到底对太阳风加速和日冕加热起多大作用。在以往的研究中,喷流爆发的同时,会有耀斑或者日冕物质抛射的发生,所以对于日冕喷流的检测也有利于其他太阳活动现象的研究。随着科
随着互联网的飞速发展,P2P系统以其快速、可靠的性能越来越成为共享经济时代不可忽略的重要组成部分。而针对P2P信誉系统的女巫攻击通过注册大量节点与目标节点交互,利用不公平评价操控目标节点的信誉变化,对系统造成严重破坏。因此,如何有效抵御女巫攻击成为保障P2P系统稳定运转的重要问题。然而,现有关于女巫攻击防范的研究多侧重于对女巫攻击者操控的节点(女巫节点)进行探测,利用深度学习或者贝叶斯网络等技术将
我国矿产资源丰富,各式的矿物品种种类多、储量大。开采矿产资源不可避免的会破坏矿区的生态环境,导致滑坡等地质灾害。为预防灾害的发生,需要对矿区进行长期连续的监测。合成孔径雷达干涉测量(InSAR)技术被越来越多的应用到矿区的形变监测中。露天矿是一种特殊的土地利用单元,在矿区中往往形变梯度大、采区裸地多、人工地物少、矿区周边植被茂密,常规的时序InSAR技术能够获取矿区监测点的密度较低。引入分布式目标
近年来,红外与可见光图像融合在各种基于视觉的应用中具有重要意义,因此受到越来越多的关注。然而,现有的融合方法中,一般都要求输入的多张源图像和输出的融合图像的空间分辨率一致,这在很大程度上阻碍了这些方法在实际场景中的应用。并且,当源图像分辨率都较低时,得到的融合图像分辨率也会比较低,即所包含的信息不够充分。针对这些问题,本文提出了一种基于元学习的任意分辨率的红外和可见光图像融合网络,有效提高不同分辨
平行句对抽取是缓解低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。但是目前平行句对抽取的方法都是基于句子语义相似性度量,并没有考虑不同词语在句子中语义表征的难易程度,同时主要集中在句子级别,忽略了文档级上下文信息以及图像所包含的信息,提取到的句子语义信息不充分,抽取到的平行句对质量不高,导致了汉-越神经机器翻译(Neural Machine Translation,NM
服装作为电子商务涉及最早的品类,已经成为规模最大、发展成熟的行业。网上服装销售具有很多传统模式不具备的优势,可使用户充分享受网络购物的乐趣和互动体验。服装迁移技术作为虚拟试衣系统的核心技术,越来越受到人们的关注。然而,如何帮助用户快速准确地找到个性化的服装以及人工智能辅助服装设计逐渐成为难点。为了辅助设计师设计时尚服装,而且可为用户提供个性化的数字服装定制,本文提出了面向服装创意设计的风格迁移方法