多场景古汉字识别方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:liyaping121416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类文明发展的产物,是抽象和浓缩的信息载体,打破了语言在时间和空间上的限制,有看和写的功能,与人类的历史一起发展。在没有数字化保存设备之前,文字通过石刻、铜铸、毛笔或硬笔书写等方式呈现在兽骨、金属、岩石、竹木、纸张等载体上,随成像技术的发展,文字搭载图像进行传播,如照片、扫描图像等。文本识别技术起源于文档文本识别,目前在手写文本、自然场景文本等文本的识别上仍有广泛的研究。目前大多数的文本识别研究对象以英文为主,汉字文本相比英文有较大的区别,如对象外观、笔画组合形式、字符分类量等,开展专项研究具有很大的意义。而其中汉字文本中有较大识别难度的古汉字文本识别研究很少。古汉字文本极为多变,一方面是古汉字文本的书体、字体变化多样,另外分布场景极为复杂,且古汉字文本的字符数量极为庞大,需要识别方法有很好的特征提取能力和分类能力,以及面对复杂场景变化的鲁棒性。多场景古汉字文本分类数量多、分布场景多样,书体字体多样,并且在不同朝代、不同人的书写习惯也提升了识别的复杂度。因此我们提出了针对多场景古汉字识别的研究。深度学习方法在很多机器视觉领域获得了极大成功,具有极强的特征提取和分类能力,以此为基础,本文的主要研究工作包括三个方面:(1)为完成多场景古汉字文本识别的深度学习解决方案,首先建立有效的多场景古汉字识别数据集,包括人工生成的训练集与实地收集的测试集。测试集样本涵盖了目前大多数的多场景古汉字文本、字体和分布场景,如甲骨文、篆书、隶书、楷书、行书、草书等书体和牌匾、碑文、古籍字画、摩崖石刻等分布场景。训练集样本使用人工生成方法,涵盖3755字符数量和多种书体、分布场景,并对数据集特征分布进行了分析。(2)基于以上研究内容获取的数据集开展识别研究。为更好地对比研究方法的性能,首先进行人类的主观识别实验,得到平均识别准确率为52.98%,说明了MACR任务的困难程度和本文研究的应用价值。考虑到本文研究的开创性,识别方法首先选用几个优秀的卷积神经网络进行基础识别实验,得到最高Top-1识别准确率为66.94%,与人类主观识别实验结果进行比较,准确率的大幅度提升说明了深度学习方法对此多场景古汉字识别任务的适用性和人工生成训练集的有效性。进一步地,本文对基础识别结果进行分析,结合置信度与准确率之间的正相关关系,提出基于置信度与多模型结合的方法,其中多模型涉及辅助数据集、多参数、多网络等。识别结果中多模型结合方法相比基础方法,top-1到top-5的提升增量分别为6.42%,6.24%,6.03%,5.71%,5.30%,说明了本文提出的多模型结合方法的有效性。(3)基于前文中的多场景古汉字识别数据集和基础实现方法,本文对数据分析发现因训练集、测试集的来源不一致,两者在字符分类数量、数据分布等方面存在差异。一般的深度学习方法面对的数据是独立同分布的,而本文的情况是两数据存在数据偏移。本文提出基于域适应与交叉域数据融合的方法,包括域深度特征和类中心特征的对齐,同时为避免因分类数不一致导致的负迁移,本文提出交叉域融合对目标域进行全类化更新,源域使用高置信度伪标签样本进行数据增强。实验结果相比基础方法和多模型结合方法,Top-1准确率获得8.06%,3.08%的提升,且模型体量要远小于多模型结合的方法。本文对多场景古汉字识别方法进行了研究和探讨,进行了大量的实验,包括人类主观识别实验、基础实现方法实验、基于置信度与多模型结合方法的实验、基于域适应与交叉域融合方法的实验,实验结果证实了实现方法的有效性,多场景古汉字的识别问题在本文获得了一定的解决。
其他文献
高校辅导员工作涵盖大学生学习与生活各个方面,已经成为高校人才培养与教育管理的重要组成部分。高校辅导员工作的质量不仅与辅导员工作的科学化发展相关、与辅导员队伍的职业化专业化发展相关,更与高校的人才培养质量以及思想政治工作质量息息相关。本论文将高校辅导员工作质量的问题居于管理学的理论框架下进行研究,并将质量管理的理论与方法创造性地运用于提升高校辅导员工作质量之中。论文主要研究内容包括,基于对高校辅导员
在中国教育与学习文化中,有“学”必有“问”。在时代变迁中“问”逐渐成为“问”与“学”中的重点,学生在“问”中发展对“学”的理解,对“学”的应用。问题提出能力是学生学习力的重要组成,能够深化学习行为,亦是发展和落地学生科学课程核心素养的重要抓手,更是学生在未来人工智能社会生活的本质需求。发展学生问题提出能力不仅能体现上述研究意义,也能弥补在小学生提出科学问题的水平划分和促进问题提出能力的教学模式研究
随着改革开放40年的发展历程,我国居民收入出现了显著变化,形成了众多差异化的收入群体,需求日趋多样化。我国居民家庭的收入水平得到了持续的积累,但居民收入水平的差距也不断拉开,收入分配差距日渐凸显。因此,应要清醒意识到已经获得的成果与党中央的要求和人民群众的期盼尚有差距。这一现象背后,居民收入分布演变始终扮演着重要角色,其隐含着收入阶层结构或者说各阶层的收入增长速度和人群密度的持续转变。基于居民收入
校外培训治理作为教育治理的热点问题,需要各利益相关主体协同参与。2018年以来从中央到地方集中发布一系列以校外培训为名称的治理政策,具有治理愿望来源等级高、治理决心大、治理措施完善等特征。然而校外培训治理的成效并不显著,持续治理获得政府和社会各界的广泛认同。校外培训协同治理是指以政府为主导,行业协会、社区、学校、校外培训机构及家长共同参与校外培训治理的一种路径选择。校外培训协同治理路径能够有效优化
随着全球化石能源储量的减少及其带来的环境问题的制约,寻求高效、低碳、环境友好的能源方案成为各国能源转型的主流方向。近年来,以超临界二氧化碳(Supercritical CO2,sCO2)为工质的布雷顿动力循环因其高效能潜力、高能量密度、应用范围广等优点得到了越来越广泛的关注,并被认为是下一代核能和太阳能领域最具潜力的动力循环之一。虽然该循环的诸多优点令其有着广阔的应用前景,但距离工程应用还有较多的
随着我国经济由高速增长阶段转向高质量发展阶段,市场对注册会计师审计所提供的会计信息鉴证的依赖程度和专业服务需求越来越大,监管部门、市场和公众对行业执业质量的期望越来越高,注册会计师行业发展迫切需要从规模数量型向质量效益型转变。切实提高注册会计师审计执业质量是实现经济高质量发展的应有之义。如何提升审计质量一直是国内外监管部门致力于解决的一大根本性问题。安然事件之后,各国均试图通过加强对注册会计师行业
区域经济发展的不平衡性,始终是社会经济研究领域内的热点问题。不同水平人力资本与经济发展之间的复杂性、二者之间的动态互动关系、前者对后者的影响路径方式及空间效应等问题的解决,无疑对区域内人力资本经济效能提高、人力资本结构优化、人力资本投资权衡等政策制定具有重要指导意义。正是基于上述思路,本文在多种视角下探讨异质型人力资本对我国区域经济发展的影响,寻找最合适层次人力资本以发挥最大效用,进而为激发落后板
当前以人工智能为代表的技术创新在数字化、网络化、智能化方面给全球带来前所未有的发展机遇,给世界各国经济增长带来了新动能,同时也对劳动者就业产生重大影响。与此同时,技术创新的就业效应及其对经济增长的影响一直以来备受学界关注。结合不同研究背景和方法对该问题研究所得结论均不相同,这给继续研究该问题提供了空间。本文在现有文献基础上,通过构建内生增长模型的方式进行理论分析,将技术创新划分为新任务创造和自动化
黄道周是晚明重要的思想家、政治家和书法家。关于黄道周的书法定位问题,目前尚存在着一些不足。文章尝试从思想史与书法史相结合的角度出发,深化对黄道周书法的研究。文章从明代思潮的复杂性入手,首先讨论在明初程朱理学关照下的文化景观。伴随着明中叶已降政治、经济、文化的多元发展,僵化了的程朱理学无法解决社会面临的诸多困境与冲突,进而出现了三股新思潮——复古思潮、心学思潮以及经世思潮。通过对这三股思潮的产生机制
科技创新伴随世界经济的高速发展,逐渐成为增强各国国际竞争力的重要因素。中国正处于经济从高速度增长向高质量发展阶段转型的重要历史时期,坚持和完善共建、共治、共享的社会治理制度需要加强建立起以科技支撑的社会治理体系。在当前内外部环境的影响下,尤其是2020年新冠肺炎疫情的爆发,中国经济的发展速度有所放缓,这是经济发展方式转变的必经阶段。经济的高质量发展需要通过企业高质量来实现,尤其是需要科技含量高的科