【摘 要】
:
中国朝鲜语古籍的数字化对保护中国朝鲜语的历史语言资源、研究朝鲜族历史、文化传承和古籍资料的再生利用,具有重要研究价值和现实意义。古籍资源的传统手工录入或简单数字化采集保存方式,效率低下,不利于记录、交流和传播,因此采用先进的数字化技术实现古籍文字的自动识别,进而实现全文数据库需求变得越来越迫切。古籍文字识别是古籍全文数字化过程中最重要的基础工作之一,由于少数民族文字的复杂性,且受样本数据量的限制,
【基金项目】
:
吉林省教育厅; 延边大学外国语言文学世界一流学科建设科研项目;
论文部分内容阅读
中国朝鲜语古籍的数字化对保护中国朝鲜语的历史语言资源、研究朝鲜族历史、文化传承和古籍资料的再生利用,具有重要研究价值和现实意义。古籍资源的传统手工录入或简单数字化采集保存方式,效率低下,不利于记录、交流和传播,因此采用先进的数字化技术实现古籍文字的自动识别,进而实现全文数据库需求变得越来越迫切。古籍文字识别是古籍全文数字化过程中最重要的基础工作之一,由于少数民族文字的复杂性,且受样本数据量的限制,使得少数民族古籍文字识别技术仍然面临着不少的困难。经过调研发现国内在中国朝鲜语古籍数字化研究领域非常落后,鲜见相关的研究文献和成果。为了推进朝鲜语古籍数字化进程,本文研究并提出了一种小样本的朝鲜语古籍文字的识别方法。首先,本文针对朝鲜语古籍文字识别的小样本学习问题,采用了两类数据增强方法扩充数据样本。一是传统数据增强方法,生成的图像可以在保持原始图像特征的同时获得一些其它特征;二是基于条件深度卷积生成对抗网络的数据增强方法,生成的新文字图像样本具有多样性优点,同时避免了模式坍塌问题的出现。采用以上方法扩充的数据集能够满足后续识别任务。其次,采用经典的卷积神经网络对本文扩充后的富数据集N1进行了预训练并得到预训练模型。预训练过程中实验对比了VGGNet16、Res Net18和Res Net50等三种卷积神经网络,三者识别性能指标接近,能够准确有效地提取朝鲜文字的结构特征,取得富数据测试集较高的分类精度。最后,采用同源迁移学习的策略提出了小样本朝鲜语古籍文字识别方法。为了证明采用同源迁移学习策略的有效性,本文采用同源预训练模型和Image Net预训练模型,同样在三种网络模型上进行了对比实验。实验结果表明本文提出的同源预训练模型在小样本数据集N2获取的识别性能明显优于后者,进一步反映了本文的同源预训练模型在提取朝鲜文字结构方面比Image Net模型更优秀。本文研究的数据增强方法有效,扩充的样本显著地丰富了实验数据。在富数据集N1的预训练任务中,Res Net18模型在测试集上达到了99.77%的分类精度。在采用同源迁移学习策略后,深度卷积网络可以在更小规模的数据集N2上解决小样本的朝鲜古籍文字图像识别问题。最终使用Res Net50模型在全类数据集上得到99.72%的分类精度。证明了本文提出的迁移学习方法能够解决小样本且不平衡的朝鲜语古籍文字识别问题。
其他文献
犬泌尿系统的原发性疾病较少见,大多数患泌尿系统疾病的犬继发于病原微生物感染、中毒病、代谢病等。宠物门诊病例以病原微生物感染居多。其中以革兰氏阴性肠杆菌和革兰氏阳性球菌的细菌感染最为常见,真菌和病毒性感染的病例较少。受气候、地域、医疗水平等因素的制约,影响各地区泌尿系统疾病的病原微生物种类也存在差异。近年来,抗生素和激素类药物的应用没有明确限制,换代频繁,导致含有多种耐药基因的致病菌出现,增加了这类
目前各国课程标准的共同特点是增加具有广泛应用性的数学内容,从现实中发展数学,各国课程发展的新趋势是强调数学交流。普通高中数学课程标准(2017年版2020年修订)中给出了数学课程的总体目标:通过高中数学课程的学习,学生能达到数学学习的知识与技能、过程与方法、情感态度与价值观三维目标。立体几何是引导学生进入几何学学习并接受综合思维训练的关键。同时,还培养学生对几何学的浓厚兴趣,培养并发展学生的空间想
随着新课程改革的深化,我国的教育事业也出现了前所未有的变革和进步,而一直作为主要学科之一的数学一直是人们关注的热门话题。数学不仅是其他学科的基础,也是许多领域的核心。因此,在高中阶段数学作为重要的基础学科,如何进行有效教学成为了关键所在。所谓的“有效教学”,就是指在教学过程中,教师和学生能在有限的课堂时间内,取得最好的教学的效果。而好的教学效果不单单只是指学生的成绩好,而是学习者应具备良好的适应终
目的本文研究农村地区60岁及以上老年人群身心健康状况及其相关影响因素,探讨了不同居住模式农村老年人群的身心健康差异,为相关部门制定老年人群健康管理策略提供科学依据。方法本研究采用基于社区的现况调查研究,利用多阶段分层整群随机抽样的方法,抽取了广西壮族自治区农村地区4595名60岁及以上老年人进行面对面现场调查,调查内容包括一般人口学特征、社会支持、健康相关生命质量、心理健康状况等。利用欧洲五维健康
新版高中化学课程标准进一步明确了普通高中教育的要求和定位,强调进一步提升学生的综合素质,着力发展核心素养,培养学生的科学文化素养和自主发展能力[1]。目前一线高中化学课堂存在的问题是缺乏教学模式的多样性,课堂的层次性低,中学化学高效课堂的构建与优化迫切需要新型的教学模式更新教法。为探究核心素养的掌握情况,对学生和教师分别进行了问卷调查和访谈,分析了现阶段核心素养发展难题并建立了“五线合一”教学模式
目的:1、采集基线情况后,予咳嗽变异性哮喘(Cough Variant Asthma,CVA)患者专业治疗后在规定时间内行肺功能检测,了解治疗措施对疾病的效果;2、在随访开始及结束时完善支气管激发试验,考核治疗对患者气道反应性的效果;3、予CVA患者专业治疗后在规定时间内行咳嗽视觉模拟评分(Visual Analogue Scale,VAS)、哮喘控制测试表(Asthma Control Test
目的:测评哮喘患者的焦虑、抑郁水平;分析哮喘患者焦虑、抑郁的相关影响因素;分析哮喘患者焦虑、抑郁与ACT评分是否存在相关性;分析不同居住地的哮喘患者焦虑、抑郁水平及影响因素是否有差异。研究方法:采用非概率抽样法,选取2019年12月至2020年12月在大理大学第一附属医院呼吸内科住院治疗的哮喘患者179例及其主要照顾179例作为研究对象。通过访谈患者完成一般资料问卷、哮喘控制测试量表;患者及主要照
随着社会的不断发展进步,人们的出行方式也发生了巨大的变化。共享单车作为一项共享经济的创新模式,对人们的出行方式带来了非常大的影响。随借随还的特点让越来越多的人使用共享单车,共享单车的大量使用也对提高人们的生活品质和减轻社会公共交通压力起到了很大的作用。通过大量实地走访和调查共享单车现状,发现目前共享单车系统存在四方面的缺陷:第一,目前大多数共享单车企业都是进行大批量生产自行车,造成了一定的社会资源
数字漫画是运用数字媒体技术制作出来的计算机漫画,是主要使用计算机的数字技术制作的与传统手工漫画不同,大多数3D动画都属于数字漫画的范围,数字科技的迅速崛起为我国漫画行业的快速发展注入了全新的生命力。但是,漫画著作权被侵犯的问题也已经逐渐成为它们未来发展的主要障碍。当前我国法律的基础存在着很多理论上的缺陷,隐瞒侵权的形式和违约成本较少是导致这种情况处于困境的重要原因。因此,急需对识别漫画版权问题进行
目的:分析延边地区近15年来1344例肺癌的临床病理特征,为本地区肺癌的防治提供参考依据。方法:收集2006年01月至2020年12月在延边大学附属医院住院经病理诊断为原发性肺癌1344例,按每5年为一个时间段分为2006年-2010年,2011年-2015年及2016年-2020年3个时间段。根据初诊断时年龄分为<40岁组(青年肺癌组)、40-49岁组、50-59岁组、60-69岁组及≥70岁组