彝文联机手写体识别的研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:lijiquan_555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字既是民族文化的灵魂,也是知识传承的重要载体,在人们的日常交流中,文字扮演着重要的角色,因此关于文字处理的研究也是计算机研究领域中重要的组成部分。文字识别是文字处理的一个重要分支,联机手写文字识别是文字识别的一个分支。联机手写文字识别就是将在手写笔、触摸屏等设备上采集的书写轨迹识别成文字的技术。目前,关于汉字联机手写识别的研究已经较为成熟和完善。近年来开始有很多关于少数民族文字识别的研究,如:蒙古文、藏文、维吾尔文等。在中华民族众多的民族中,还有很多民族也有自己特有的文字,但是这些民族文字的数字化进程尚待发展和完善。彝族作为我国的第六大少数民族,在历史的长河中积累了自身独特的文化以及彝族特有的文字:彝文。彝文的使用人数超过百万,虽然目前彝文已经有了规范彝文编码、字体、输入法,但彝文的数字化进程还是相对滞后,针对彝文的语音识别、联机手写识别等研究较为稀少。因此,针对彝文的字符的联机手写识别和彝文文字检索对彝文数字化工作的推进具有重要的意义。本文针对较为通用的规范彝文文字,构建了一个可以用于彝文联机手写识别的规范彝文联机手写识别样本库,提出了一种彝文笔画结构分析和处理的方法,建立了两个彝文联机手写识别的模型,实现了彝文联机手写识别系统以及彝文文字检索系统。本文的具体工作如下:(1)设计并实现了彝文联机手写识别字符样本库构建中所需要的采集系统和样本整理需要的筛选工具等。完成了彝文联机手写识别样本的采样、筛选。一共为规范彝文中所有的1165个字符采集了92830个样本,平均每个字符79个样本。并参照OLHWDN数据集的数据格式进行了存储。然后针对彝文笔画数量较少,除主笔以外的笔画大多较短、主笔较长且多弧形等特点,使用了一系列的分析处理方法。首先对样本进行移位和归一化处理,减少采样设备分辨率差异对样本带来的影响。然后依据笔画中的线段在极坐标中极角的变化判断笔画的走向,将除起始点、转折点和结束点等关键点以外的大多数点去除。这能在保留样本整体轮廓的前提下有效地降低样本中点的数量,让同一个字的不同样本中点的数量接近。最后根据样本中笔画的位置、长短、走向等结构信息构建一个新的特征,这个特征可以辅助识别模型进行识别。(2)建立了两个基于循环神经网络的彝文联机手写识别模型:RnnNet-Yi和ParallelRnnNet-Yi。其中RnnNet-Yi将单个字符样本的所有笔画视为一个完整的序列进行识别,先使用双向的循环神经网络对整个序列进行特征提取,然后通过后续的全连接网络进行分类识别并输出。而ParallelRnnNet-Yi将单个字符样本的每一笔分开进行识别,通过一系列并联的循环神经网络独立地对笔画进行特征提取,再通过后续的全连接网络进行分类识别并输出。实验结果表明,ParallelRnnNet-Yi拥有较好的top5识别准确率,RnnNet-Yi相对ParallelRnnNet-Yi拥有更高的识别准确率。但RnnNet-Yi模型的规模和内存开销远高于ParallelRnnNet-Yi。因此,RnnNet-Yi可以应用于计算资源充足,且对识别的top1准确率要求较高的场景,而ParallelRnnNet-Yi则可以应用于计算资源有限,对top1准确率要求相对较低的场景,如手机或嵌入式设备中进行彝文手写输入等。(3)设计并实现了彝文联机手写识别系统和检索系统。将识别模型进行了封装,可以对书写的单个的彝文进行识别并给出识别结果。然后将彝文联机手写识别系统整合在彝文单字检索系统中,检索系统可以通过输入彝文、手写彝文、输入Unicode、输入彝文拼音等方式进行检索。
其他文献
近年来,道路交通安全越来越受到重视,中国交通运输部统计表明约50%的汽车交通事故是由车辆偏离正常车道引起的,据美国联邦公路管理局估计,2002年美国44%的致命交通事故与车道偏离有关,车道偏离也被认为是车辆翻车事故的主要原因。车道偏离预警系统(Lane Departure Warning System,LDWS)作为提高道路安全的重要创新技术,将人员伤亡率减少了50%以上,有效地避免了交通事故的发
随着深度学习研究的不断深入,无人驾驶技术得到高速的发展,为人们的出行提供了新的体验。无人驾驶系统对周围环境的了解程度是实现车辆安全驾驶的基础,算法对环境的理解能力影响了无人驾驶系统的智能程度,为车辆的决策系统提供数据支持。如今的深度学习算法解决了传统算法对环境理解层次低,难以提取较高维度抽象特征的问题。基于深度学习的算法能够通过大量的样本训练学习,从中提取到高级抽象的特征,并得到泛化能力强的模型。
5G网络和5G手机的普及,互联网移动生态伴随着硬件和网络的发展在蓬勃发展。用户通过手机的媒介,每天以增量的方式,产生EB级别的数据,这就意味着需要处理大量的数据。在大数据的时代背景下,企业对于自己积累的历史数据,网络上可以利用的数据,进行挖掘和利用,也变得十分重要,利用这些数据给企业带来商业价值。百度的竞品观察室(SCOP-Scop’s Competitor Observation Platfor
细胞神经网络(CeNN)是一种局部互联的神经网络结构,兼具细胞自动机和人工神经网络两者的优点,具有高效的并行处理能力,而且其结构简单可靠,易于在硬件层面上实施,因此被广泛的应用于图像处理,信号处理等领域。然而,目前CeNN存在自适应模板设计不足、大规模电路实现困难等问题,难以满足复杂实时信号处理及端侧智能计算的应用。因此,本文提出了一种量化和自适应的忆阻细胞神经网络(Quantized and A
2014年教育部印发的《关于全面深化课程改革落实立德树人根本任务的意见》指出:“把核心素养落实到学科教学中,促进学生全面而有个性的发展。”自此以后核心素养就成为当下改革中最热门的话题之一,学科核心素养的培养成为课程目标中最关键的一环。《意见》中要求学生具有的学科核心素养源于学科基础知识又远远高于学科基础知识,教师应该积极引导学生在学习过程中,形成对学科本质和规律的深刻认识和把握,引领同学们将学习后
人体动作识别是模式识别领域一个研究热点。它通过计算机对传感器采集数据进行处理和分析,学习理解人体动作和行为,并做出相应决策。它被越来越多应用到体育运动等领域中,给予用户个性化的运动评估方案,从而帮助人们提升运动技能、增强人体健康。近年来,随着可穿戴计算快速发展,基于可穿戴惯性传感器的人体动作识别吸引了大量研究学者。相对于光学式传感器,可穿戴惯性传感器具有低成本、小尺寸、应用范围更广、不存在空间限制
随着时代的发展,新课标对初中生物教师提出新的要求,生物学教学应着力培养学生的生物学学科核心素养:生命观念、科学思维、科学探究、社会责任。应以学生为主体,着重于学生的主动学习,提高学生的探究合作能力、自主学习能力。传统的教学模式只依靠教师枯燥的讲解,不利于学生知识的理解与掌握,已不适应现在的生物教学。翻转课堂作为一种新型高效的教学方式,在国内外的教育界引起了巨大的反响。在翻转课堂中学生在课前利用教师
随着我国科学技术的迅猛发展,社会经济的深刻变革,新一轮的基础教育改革势在必行。学校作为教师教学、学生学习的场所,而教室又作为主阵地。教育改革必然就离不来课堂教学方式的改革。作为教育工作者的我们要从思想上转变、从行动上探索,要寻求人才培养与高考相适应的新型课堂教学模式。教育部颁布的2017版生物学课程标准中明确指出教育要大力倡导学生进行探究式学习,探究式的学习方式对学生的学习能力提出了更高的要求。只
随着互联网技术的普及和发展,网上购物已经渐渐融入到人们的日常生活中。尤其在新冠病毒疫情大环境下,越来越多的人选择了线上购物。随之而来的是大量的用户评论数据,数据中包含了用户对商品以及服务的评价,这些评论中的情感取向对改善产品以及服务质量至关重要。因此,挖掘评论中的用户情感取向有着重大的意义。文本情感分析任务作为自然语言处理中的一个热门任务,在日常生活中有着重要的应用价值。目前市场上还没有一个专门用
区域认知素养是地理核心素养的重要组成部分,区域性则是地理学科的一大根本特性。区域作为地理各要素性质和综合分析的载体,对其进行科学的认知是培养学生地理核心素养重要的基石。初中地理课程以区域地理为主,且涉及的内容繁杂,在实际教学过程中,学生接收了大量零碎的知识点却很难内化为地理能力,区域认知素养亟待提升。本文通过查阅大量区域认知相关的文献资料,基于区域认知的内涵探讨,将区域认知分为划分区域、认识区域和