基于序列到序列模型的中文语法纠错研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:weigangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语法纠错(GEC)一直是自然语言处理的重要研究任务之一,该任务的目的是对文本中的错误语法进行检测并纠正。随着深度学习的发展以及数据的爆炸性增长,翻译模式成为GEC任务的首要选择,序列到序列(seq2seq)模型在GEC任务中得到了广泛应用。相较于英文等字母语言,中文有许多不同的特性。并且,中文GEC任务的相关数据集较少,这限制了seq2seq模型的学习能力。针对以上问题,本文在现有的研究基础之上,对中文GEC任务进行了更进一步的研究。本文的主要工作如下:(1)提出两阶段中文语法纠错模型(TS-GEC)。该模型主要由两个独立的子模块组成——基于语言模型的拼写检查子模块和基于seq2seq模型的GEC子模块。拼写检查子模块负责纠正给定文本中含有的拼写错误,其中主要是非词错误;基于seq2seq模型的GEC子模块负责纠正给定文本中含有的其他错误语法,包括语法错误和拼写错误。根据GEC任务中源句子和目标句子是同一种语言的特性,在seq2seq模型的基础上提出了基于语言模型的循环推理方式,通过多次推理来纠正文本中含有的多个语法错误。同时,对seq2seq模型的词嵌入层采取不同的初始化方式,用预训练的词向量初始化解码器端的词嵌入层,对编码器端进行随机初始化。这一方式能保证编码器端学习到的词向量更符合语法错误句子的特点,有更好的表示能力。(2)提出基于动态遮掩词的中文语法纠错模型(DMasking GEC)。该模型以Transformer模型为基础,在模型的输入阶段引入了动态遮掩词算法(Dynamic Masking Words),其中包括随机遮掩、随机替换、Unk替换和重新排序四种基本的遮掩方法。在模型的训练阶段,从四种不同的遮掩方法中随机选择一组遮掩方法来对源句子添加噪声数据,在小范围内对数据集进行修改,以此获得语法错误更加多样性的训练样本。动态遮掩词算法在一定程度上缓解了中文GEC任务的训练样本数量少和错误类别少等问题。(3)在NLPCC 2018 GEC公开数据集上进行了实验。本文提出的TS-GEC模型和DMasking GEC模型在F0.5分数上分别达到31.01和33.71,分别超出NLPCC2018 GEC任务的最优结果(F0.5=29.91)1.1和3.8。实验结果证明了本文提出的模型对于中文语法纠错任务的有效性。
其他文献
近年来,作为一种能展现360度全方位视角的媒介,全景视频在监控、场景展示、赛事直播等领域展现了独特的魅力,逐步走进大众视野。全景视频具有视角广阔、高分辨率、高帧率、数据量大的特点,为存储和传输带来困难,因此亟需有效的全景视频编码方案。在全景视频编码过程中,投影方法与编码算法是最关键的两个要素。本文围绕全景视频的特性,提出了如下几种投影方法,以适配随后的全景视频编码:(1)提出近似均匀采样的少畸变双
随着互联网技术的高速发展,网络中的数据量呈指数式增长。在信息过载的情况下,用户难以及时、准确地发现感兴趣的商品。推荐系统通过分析用户与物品的相关特征,从而为用户过滤大量无关信息,推荐符合其偏好的商品。推荐系统的准确性常因两大问题受到限制,一是评分数量过少导致的数据稀疏问题,二是新物品或新用户加入导致的冷启动问题。本文主要针对这些问题对推荐系统进行研究,以提高推荐结果的准确性。本文立足于推荐系统中与
病理图像检查被誉为诊断癌症、预后和指导治疗的金标准,同时也是连接诊断和治疗的关键环节。它通过观察活体组织结构和细胞病变特征做出诊断,其结果相比其他诊断方法更加权威,是目前最主要也最可靠的癌症诊断方法。随着数字成像设备和病理切片制作技术的不断发展,病理医生可以借助先进的成像设备扫描活体组织样本,并通过计算机观察其生成的全切片图像。然而,全切片图像的分辨率极高,并且图像内容复杂,涵盖了百万数量形态多样
文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,
可逆水印,作为一种特殊的数字水印技术,需要提取方在正确提取水印后无失真的恢复原始载体。这种可逆性对于医学、军事和法律等具有高保真要求的特殊领域至关重要。但是,含水印图像在信道的传输过程中会产生一定的质量损失,这就要求可逆水印同时可以抵抗一定程度的攻击,比如JPEG压缩和噪声等非恶意攻击。因此,鲁棒可逆水印(Robust Reversible Watermarking,RRW)技术应运而生。鲁棒可逆
随着无线通信技术的不断发展,车联网正朝着异构化的趋势不断演进。异构车联网将短距离通信、蜂窝网等技术结合在一起,满足了不同场景下的车载业务需求。面对车联网中复杂的网络拓扑和严苛的通信条件,如何保证车辆移动时网络连接的稳定性,提升车联网技术辅助下车辆的驾驶安全是目前学术界研究的热点。早期的异构车载网络大多依靠远程云服务器进行海量数据的分析与决策,由于传输距离较远很难对一些时延敏感型数据进行实时处理。利
近年来,随着互联网和多媒体技术的飞速发展,数字信息以图像、视频、文字等形式被广泛传播。多媒体数据易被非法获取和篡改,从而导致严重的信息安全问题,例如版权纠纷、数据泄露等。作为多媒体数据版权保护的一种有效方法,数字水印技术在不影响视觉效果的情况下,将标识信息嵌入到多媒体数据中,从而利用提取的嵌入信息确认版权。本文针对最广泛使用的多媒体数据载体,即图像和视频,研究了不同嵌入规则下的鲁棒盲水印方法,优化
涉案财物管理是刑事诉讼程序中一项十分重要的内容。当前,我国对于涉案财物采用“实物移送,各自管理”的管理模式。这种模式容易出现业务衔接不畅、司法效率过低以及涉案财物被非法侵占等问题,其原因在于公安机关、检察院和法院等涉案财物管理单位之间往往会产生信息孤岛效应,导致信息传递与财物转移失去一致性。本文针对这一问题进行分析,利用区块链技术构建了涉案财物跨部门转移的协同管理过程,重点研究了共识的形成机制。本
四维光场相机被认为是优秀的成像设备,具有广阔的发展前景。其和传统的相机相比,不仅可以记录每个像素的强度,并且可以记录光的方向,提供了丰富的结构信息。通过获取光场中的有效信息,许多基于视觉的应用得以进一步发展,如虚拟现实、重聚焦、三维重建等。而基于光场的三维重建,可以准确地恢复场景的三维结构,所以逐渐成为了国内外研究的热点。本文将基于光场的三维重建分为两个部分进行介绍:在同一个光场中,包含了针对同一
随着目标检测领域的不断发展,人们逐渐发现,标注成本问题成为了限制其发展的重要因素之一。如何使用简单标注的数据集训练出高精度模型成为了亟需解决的问题,针对此问题,研究者们提出了弱监督目标检测算法。虽然人们逐渐攻克了弱监督检测中遇到的一些挑战,但困扰着该领域的两大问题依然未被完全解决。第一个问题是多尺度检测问题。现有的检测方法更倾向于定位和识别尺度变化不大的目标,很难同时检测出较大和较小的目标。多尺度