古籍文本的自动断句与标点研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yy838026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的发展,部分研究学者尝试将深度学习模型应用到古籍文本的处理中。古文相较于现代文不仅在用词、语法等方面存在巨大的差异,还缺少标点。目前仅有少部分古籍文本经过人工处理,具备断句或标点符号,仍还有大量的古籍文本没有断句或标点。通过人工对古文进行断句或标点,既需要有较高的专业知识,还需要对文本对应的当时的历史文化有一定的了解,因此对古文进行断句和标点的速度缓慢。为了加快对古籍文本的断句和标点的速度,部门研究学者尝试使用深度学习模型对古籍文本进行断句和标点。本文主要研究基于深度学习的古籍文本自动断句和标点算法,并对模型进行优化改进,进一步提高模型对古籍文本断句和标点的性能。本文的主要工作如下:(1)将深层语言模型BERT、双向长短记忆网络(Bi LSTM)和条件随机场模型(CRF)相结合用于古籍文本自动标点任务。首先将BERT模型应用于古籍文本处理任务中,使模型能够充分学习文本语义信息。同时结合Bi LSTM+CRF模型能够学习标签规范信息的特性,进一步增强模型的规范性,使得模型的预测结果更加准确。(2)提出了新的数据预处理方法,即数据按照段落分行处理。将按照标点分行的数据预处理方法改变为按照段落分行,数据的一行作为模型的一个数据处理单元,改变后的数据预处理方法使得模型的一个数据处理单元包含更多的文本信息,使得模型能够更加充分的学习文本上下文关联信息。(3)提出基于动态编码和以段落分行的数据预处理方法的BERT深度学习模型,考虑到古文的段落长度长短不一,对数据向量化时使用动态编码的方式,进一步减少了不必要信息的加入,缩短了模型的处理单元数量,提高模型预测结果的准确率。并且设计并开发了一个古籍文本自动断句和标点系统,使得用户能够直接通过该系统对想要断句或标点的文本进行处理,方便用户使用。本文在自行收集的数据集上进行实验,采用了统一的评价指标进行评判。最终的实验结果表明,改进后的BERT模型使用以段落分行的数据预处理方法和动态编码方式不仅能够更好的学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息,可以有效地提高古籍文本自动断句和标点的准确率。
其他文献
中文唇语识别是富有挑战性的研究课题之一,其目标是通过观察说话者的嘴唇运动变化从而识别出相应的文本内容。由于中文具有丰富性和歧义性等语言特征,且目前没有公开可用的中文唇语数据集,该课题的研究一直处于发展缓慢阶段。近年来,随着神经网络在计算机视觉领域的广泛应用,基于深度学习的唇语识别研究也取得了长足的发展。本文通过自建中文唇语数据集CCTVDS以及对中文构词特征的分析,提出了端到端的中文唇语模型Lip
在城市遮蔽环境中,利用微波信号透视墙体等障碍物,探测未知盲区,实现室内目标定位、跟踪和识别、建筑布局成像等,在灾害救援、反恐维稳及城市作战等领域具有重要应用前景。微波信号与建筑环境相互作用时,会产生透射、反射、衍射等复杂的电磁传播现象,导致回波信号出现杂乱、模糊等物理效应,如何高效利用复杂回波信号,实现高精度建筑布局成像是国内外研究热点和难点。本文围绕建筑布局成像问题,开展建筑布局结构透视微波层析
随着现代无线技术的迅猛发展,作为无线系统中至关重要的组成部分,天线也需要满足多系统融合的发展趋势。共口径天线可以将多个频段、多个极化、多个功能的天线放置在同一个辐射口径面内,并减少工作系统中的天线数量,提高系统的口径利用率,从而成为了天线领域的热门研究方向。此外,当共口径天线多个通道间具备较高的隔离度时,可以有效降低系统的复杂程度,使得多个频段天线具备独立工作和调控的能力。由于毫米波频段具有丰富的
长江第一弯的形成是青藏高原东南缘河流地貌演化的重要事件,也是了解金沙江及长江流域在构造与气候等因素作用下水系调整历史的重要窗口。在青藏高原隆升,河流快速下切,第四纪冰期等地质背景下,属于地形急变带的青藏高原东南缘第四纪以来形成了大量的重力型堆积残体。这些堆积残体年代久远,成因复杂,但却往往蕴含着与环境演化相关的丰富的地质信息。这些信息是了解堆积残体形成与演化过程中古构造、古气候等因素的重要根据,对
细菌感染已经成为全球人类所面临的公共健康问题。在人类与细菌的顽强抗争中,抗生素曾一度被认为是对抗细菌感染的终极武器。然而,多重耐药菌株的出现和蔓延逐渐凸显出了抗生素治疗的无效性。近年来,纳米科学技术的快速发展为提高抗感染治疗水平提供了有效的替代方案。其中,半导体纳米材料由于其独特的理化性质、结构特点以及良好的环境稳定性,在实际应用领域中占据重要地位。自然界的生物为了适应环境的变化,在激烈的生存竞争
2型糖尿病是一种由遗传和环境因素综合作用所导致的内分泌代谢性疾病,以空腹及餐后高血糖为主要特征的代谢异常综合征,占糖尿病的90%以上。伴有高甘油三酯等血脂异常的糖尿病患者,相对于血脂水平正常的糖尿病患者在临床上发生并发症的风险更高,病情也更为严重,易累及心血管、脑血管等多个器官、系统。长链非编码RNA(long non-coding RNA,lncRNA)常作为疾病诊断的标志或治疗靶点。已有研究表
随着我国“双碳”战略的全面实施,汽车燃料消耗与尾气排放问题伴随汽车保有量的攀升而日趋严峻。寻求清洁的代用燃料已成为发动机技术研究的重要方向。在众多的代用燃料中,乙醇燃料具有与传统内燃机良好的兼容性,可以利用现有的工业体系快速推广,同时限制了温室气体的排放,是一种备受瞩目的碳中和可再生燃料。但是乙醇的汽化潜热大,饱和蒸汽压较低,缸内混合气形成困难,在一定程度上影响整车的动力性。为解决上述乙醇燃料固有
铝及铝合金材料由于具有储量丰富、密度低、比强度高、耐腐蚀性能良好以及机械加工性能优异等特点,被日益广泛地应用于航空航天、汽车制造、建筑行业以及日常生活等领域。铸锭是合金材料后续加工制备的母材,其质量好坏对产品最终组织、性能有着至关重要的影响。铝合金铸锭的质量与其凝固过程及组织密切相关。由等轴、细小、均匀晶粒组成的铝合金凝固组织不仅可以保证铸件成分的均匀性以及良好的机械加工性能,同时也会极大地降低铸
本论文结合中国地质调查局沈阳地质调查中心项目“区域水资源调查评价方法和地下水生态水位阈值调查研究”(DD20190340)选题,针对吉林省乾安县长期存在的地下水咸化、土壤盐渍化以及氟和砷超标等环境地质问题开展研究,旨在揭示:(1)在氟和砷逐渐污染地下水的情况下,深层地下水是否可以作为替代水源;(2)地下水咸化和土壤盐渍化治理项目成功与否;(3)哈达山水利枢纽工程对乾安县地下水环境的潜在影响。研究通
佳木斯地块东南缘的麻山杂岩被认为是中国东北地区东部最古老的变质基底。麻山杂岩性质和时代的研究是确定佳木斯地块麻粒岩相变质作用演化及形成机制,探讨佳木斯地块前寒武纪地壳形成和演化过程的关键。本文对佳木斯地块柳毛、西麻山和上三阳地区麻山杂岩进行了系统详细的岩石学、矿物微区化学以及岩石地球化学研究,利用相平衡模拟和传统地质温压计估算温压的方法,结合锆石U–Pb年代学,估算了麻粒岩相变质作用不同变质阶段的