基于深度学习的甲骨文偏旁与合体字识别的研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:playchild
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
甲骨文作为汉字的源头,对理解中国古代乃至世界的文化和历史都具有重要意义。但甲骨文字复杂的字形结构和异体字较多的问题,阻碍了甲骨文研究的发展。甲骨文字的识别一直是甲骨文研究中最重要的领域之一。受汉字偏旁拆分的启发,本文提出从偏旁的角度识别甲骨文字形,设计并实现了甲骨文偏旁和合体字识别的方法。将甲骨文字符视为偏旁组合而不是整字识别的方法,不仅可以减少甲骨文字类别和异体字数量,忽略相似字符之间的冗余信息,还使系统能够识别未被考释的甲骨文字符。这样能够极大的提高专家考释未见字的效率,也进一步推动了甲骨学的传承和发展,对甲骨文研究有着重要的应用价值。本文的具体工作如下:1.由于当前国内外还没有标准的甲骨文单偏旁数据集,甲骨文合体字在现有甲骨文字库中也较少,本文通过数据扩充,字符采样,半自动化采样表切割和分类构建了类别数为15,示例数为10412的甲骨文单偏旁数据集(Oracle Radical Character Dataset,ORCD);再利用计算机辅助拼接技术将甲骨文单偏旁拼合为6种常见结构的甲骨文合体字符,在此基础上还设计了甲骨文合体字联机手写采集系统,最终构建了类别数为1320,示例数为462186的甲骨文合体字数据集(Oracle Combined-Character Dataset,OCCD),扩充了在现有甲骨文字库中稀缺的甲骨文合体字字符,也为后续甲骨文手写体研究奠定了数据基础。2.在甲骨文单偏旁研究中,本文设计了一个基于深度学习的甲骨文偏旁检测与识别的框架(Oracle Radical Extract and Recognition Framework,ORERF)。首先结合最大极值稳定区域(Maximum Stable Extremal Regions,MSER)算法和自定义后处理算法生成甲骨文单偏旁数据标注;然后,将生成的甲骨文偏旁级标注数据输入到检测网络中,该网络利用U-Net架构和注意力机制提取单偏旁特征后,将特征图馈送至检测模块用于偏旁定位;最后根据偏旁坐标位置,将偏旁拆分后输入到辅助分类网络进行识别,该识别网络能在一定程度上解决单偏旁异体字多的问题。3.在甲骨文合体字识别研究中,由于Image Net是一个用于视觉对象识别研究的大型数据集,本文研究了对在Image Net数据集中预训练的卷积神经网络模型进行参数和结构上的精调,使卷积特征更有利于甲骨文合体字的表示,减轻了训练数据量和模型运算时长的限制。实验结果表明,本文的识别模型对OCCD数据集识别的准确率为98.4%。4.设计并实现了甲骨文偏旁和合体字自动识别系统,将检测和识别模型进行封装。系统的前端由Html5、CSS3、JQuery、Boot Strap实现。为了方便模型的集成,系统的后端采用Django框架,Python语言作为开发语言,系统可以对所选择的甲骨文图像进行自动识别并在前台输出。
其他文献
随着深度学习研究的不断深入,无人驾驶技术得到高速的发展,为人们的出行提供了新的体验。无人驾驶系统对周围环境的了解程度是实现车辆安全驾驶的基础,算法对环境的理解能力影响了无人驾驶系统的智能程度,为车辆的决策系统提供数据支持。如今的深度学习算法解决了传统算法对环境理解层次低,难以提取较高维度抽象特征的问题。基于深度学习的算法能够通过大量的样本训练学习,从中提取到高级抽象的特征,并得到泛化能力强的模型。
5G网络和5G手机的普及,互联网移动生态伴随着硬件和网络的发展在蓬勃发展。用户通过手机的媒介,每天以增量的方式,产生EB级别的数据,这就意味着需要处理大量的数据。在大数据的时代背景下,企业对于自己积累的历史数据,网络上可以利用的数据,进行挖掘和利用,也变得十分重要,利用这些数据给企业带来商业价值。百度的竞品观察室(SCOP-Scop’s Competitor Observation Platfor
细胞神经网络(CeNN)是一种局部互联的神经网络结构,兼具细胞自动机和人工神经网络两者的优点,具有高效的并行处理能力,而且其结构简单可靠,易于在硬件层面上实施,因此被广泛的应用于图像处理,信号处理等领域。然而,目前CeNN存在自适应模板设计不足、大规模电路实现困难等问题,难以满足复杂实时信号处理及端侧智能计算的应用。因此,本文提出了一种量化和自适应的忆阻细胞神经网络(Quantized and A
2014年教育部印发的《关于全面深化课程改革落实立德树人根本任务的意见》指出:“把核心素养落实到学科教学中,促进学生全面而有个性的发展。”自此以后核心素养就成为当下改革中最热门的话题之一,学科核心素养的培养成为课程目标中最关键的一环。《意见》中要求学生具有的学科核心素养源于学科基础知识又远远高于学科基础知识,教师应该积极引导学生在学习过程中,形成对学科本质和规律的深刻认识和把握,引领同学们将学习后
人体动作识别是模式识别领域一个研究热点。它通过计算机对传感器采集数据进行处理和分析,学习理解人体动作和行为,并做出相应决策。它被越来越多应用到体育运动等领域中,给予用户个性化的运动评估方案,从而帮助人们提升运动技能、增强人体健康。近年来,随着可穿戴计算快速发展,基于可穿戴惯性传感器的人体动作识别吸引了大量研究学者。相对于光学式传感器,可穿戴惯性传感器具有低成本、小尺寸、应用范围更广、不存在空间限制
随着时代的发展,新课标对初中生物教师提出新的要求,生物学教学应着力培养学生的生物学学科核心素养:生命观念、科学思维、科学探究、社会责任。应以学生为主体,着重于学生的主动学习,提高学生的探究合作能力、自主学习能力。传统的教学模式只依靠教师枯燥的讲解,不利于学生知识的理解与掌握,已不适应现在的生物教学。翻转课堂作为一种新型高效的教学方式,在国内外的教育界引起了巨大的反响。在翻转课堂中学生在课前利用教师
随着我国科学技术的迅猛发展,社会经济的深刻变革,新一轮的基础教育改革势在必行。学校作为教师教学、学生学习的场所,而教室又作为主阵地。教育改革必然就离不来课堂教学方式的改革。作为教育工作者的我们要从思想上转变、从行动上探索,要寻求人才培养与高考相适应的新型课堂教学模式。教育部颁布的2017版生物学课程标准中明确指出教育要大力倡导学生进行探究式学习,探究式的学习方式对学生的学习能力提出了更高的要求。只
随着互联网技术的普及和发展,网上购物已经渐渐融入到人们的日常生活中。尤其在新冠病毒疫情大环境下,越来越多的人选择了线上购物。随之而来的是大量的用户评论数据,数据中包含了用户对商品以及服务的评价,这些评论中的情感取向对改善产品以及服务质量至关重要。因此,挖掘评论中的用户情感取向有着重大的意义。文本情感分析任务作为自然语言处理中的一个热门任务,在日常生活中有着重要的应用价值。目前市场上还没有一个专门用
区域认知素养是地理核心素养的重要组成部分,区域性则是地理学科的一大根本特性。区域作为地理各要素性质和综合分析的载体,对其进行科学的认知是培养学生地理核心素养重要的基石。初中地理课程以区域地理为主,且涉及的内容繁杂,在实际教学过程中,学生接收了大量零碎的知识点却很难内化为地理能力,区域认知素养亟待提升。本文通过查阅大量区域认知相关的文献资料,基于区域认知的内涵探讨,将区域认知分为划分区域、认识区域和
文字既是民族文化的灵魂,也是知识传承的重要载体,在人们的日常交流中,文字扮演着重要的角色,因此关于文字处理的研究也是计算机研究领域中重要的组成部分。文字识别是文字处理的一个重要分支,联机手写文字识别是文字识别的一个分支。联机手写文字识别就是将在手写笔、触摸屏等设备上采集的书写轨迹识别成文字的技术。目前,关于汉字联机手写识别的研究已经较为成熟和完善。近年来开始有很多关于少数民族文字识别的研究,如:蒙