中文文本校对语料库自动生成技术研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:gongzheyy86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本的自动校对技术是自然语言处理的重要应用技术之一。当前使用深度学习的方法进行中文文本校对或者使用深度学习和传统方法结合已经成为主流。然而使用深度学习方法最重要的挑战之一是没有足够多的标记数据用于模型的训练。为解决校对数据不足的问题,本文提出自动生成中文文本校对语料库的方法。鉴于当前中文校对数据分为两类,即中文文本拼写校对和中文文本语法校对,因此本文的主要工作有两点:一是自动生成中文拼写校对语料库;二是自动生成中文语法校对语料库。在生成中文拼写校对语料库时,由于不同输入法会产生不同形式的拼写错误,因此本文分别为校对拼音输入法、光学字符识别输入法(OCR)以及语音识别输入法(ASR)这三类主流输入法生成的文本构建了对应的语料库,将其分别简称为拼音语料库、OCR语料库以及ASR语料库,本文使用拼音与汉字的相互转换技术来生成拼写语料库,基于光学字符识别技术生成OCR语料库,基于ASR技术生成ASR语料库。在生成语法校对语料库时,主要使用了两类方法,一类是构建拼写校对语料库的相关方法,包括汉字转拼音技术、拼音转汉字技术和OCR技术,这类方法主要用来生成别字错误;另一类是基于翻译的方法,即将正确的句子翻译成错误的句子,该方法主要用来生成多字符、少字符以及字符顺序颠倒类的错误。我们使用基于错误检测的方法、基于统计的方法以及人工评测的方法来评估语料库的质量。实验证明,本文生成的语料数据可以较好的模拟真实的错误句子,对中文文本校对任务有较大帮助,其中在拼写校对数据sighan2015上,使用本文构建的语料库比不使用F1值最多提升约4.8个百分点;在公布的语法校对数据NLPTEA2018上,使用本文构建的语料库F1值最多提升约5.7个百分点。
其他文献
计算机技术发展以来,人机交互成为了计算机领域主要研究的内容之一。随着人工智能技术的快速发展,越来越多的人机交互成果被使用在生活中,同时驱动着机器视觉中与人脸相关的大量研究与应用,人脸表情是其中重要的组成部分。生成对抗网络(GANs)自2014年提出,被广泛应用在文本、图像等领域。学者们利用其优秀的生成能力进行人脸研究并且取得一些成果。但是近几年的研究发现,GANs在有限样本的情况下容易产生欠拟合,
光纤预警系统(Optical Fiber Pre-warning System,OFPS)是一种铺设于管道周围、利用分布式光纤传感的预警系统,因具备稳定且精确度较高的特点,被广泛应用于检测管道泄露、人为或机械等入侵行为。OFPS在检测到信号入侵后,识别部分可以通过算法判断入侵信号的类型,依据信号的危险程度采取不同的手段及时止损。目前,在OFPS领域已经有很多成熟的检测与识别算法,但如何判断振动信号
在工业生产中普遍存在时间序列样本不平衡的问题,即正常情况下的样本数量远远大于异常情况下的样本数量。在电解铝行业中这个问题更加的明显,因为在工业生产中发现异常样本是非常困难的,专家没有一个明确的准则来判断异常。近年来,生成对抗网络(GANs)在异常检测领域越来越流行,在本文中,我们利用生成对抗网络(GANs)能够对复杂的高维图像分布进行建模的能力,提出了一种基于输入样本自适应改变的对抗自编码器生成对
云计算作为一种信息处理基础设施模式和商业模式,逐步得到广泛认可。云服务的执行离不开服务执行环境所提供的计算资源和数据支撑。数据及其负载作为服务执行环境的重要支撑,同样也影响着服务质量。在数据负载不断出现波动的时候,服务执行环境的稳定是确保服务质量的关键一环。为确保服务执行环境的稳定,基于数据负载趋势并主动调配资源是目前较为流行的系统管理方法。本文以提高服务质量为目标,基于数据负载的多维度特征,进行
随着三维点云数据被应用到越来越多的领域,如何快速、准确地识别三维点云物体逐渐成为研究的重点之一,尤其是自动驾驶这种对物体识别的实时性有较高要求的领域。由于点云具有非结构化、分布不均匀等特点,传统的深度学习网络不易直接处理。而且,庞大的网络参数和复杂的网络结构也影响着深度学习网络的运行效率。宽度学习系统虽然克服了网络运行速度较慢的问题,但其在三维点云物体识别领域的研究较少,且宽度学习系统也无法直接处
随着社会和科技的发展,人们对时间序列等数据的研究日渐深入,然而现实中的时间序列多有几种基本成分复合而成,直接对其使用单一模型进行预测,预测精度难以提高。本文研究的数据来自风云3号A星的中分辨率光谱成像仪(MERSI)的定标参数时间序列,此时间序列在长时间段上呈现上升趋势,同时短时间内又有周期性变化,同时还含有噪声。本文先鉴于集合经验模态分解(EEMD)和Seasonal-Trend decompo
音乐相似度检测是音乐信息检索领域的一个重要分支,对于辅助鉴定音乐抄袭以及其他基于音乐内容的检索、审查有积极作用。准确而且适当的音乐特征提取对于提高音乐信息检索的效率具有重要意义。音乐相似度的含义较为丰富,音乐之间相似性可以归纳为情感相似、乐理特征相似、流派相似等。在翻唱、抄袭检测的应用场景中,应当侧重比对音乐内容、乐理特征的相似。现有音乐相似度检测方法主要有两个问题:一、音乐主旋律及其他音乐特征提
近年来,物联网技术和应用得到了快速发展,实时处理物联网设备产生的海量数据对于提升数据价值密度,快速响应业务事件具有重要意义。物联网终端设备众多,产生的数据经过复杂且不稳定的网络,可能会有乱序情形,针对乱序数据的数据分析和查询结果会出现错误,影响业务决策。此外,随着智能终端的发展,嵌套式结构逐渐成为物联网数据的常见格式,设计嵌套式数据存储与查询方法,提升数据检索速度是需要关注的问题。基于上述分析,本
随着工业数字化、网络化的快速发展,互联互通、智能化的工业物联网(Industrial Internet of Things,IIoT)应运而生。IIoT作为国家基础设施的神经中枢,需要高安全性的通信协议互连,因而协议的安全性分析尤为重要。协议安全分析的前提是已知协议格式,然而IIoT设备厂商出于优化通信性能或提供个性化功能等因素考虑,导致IIoT中存在大量的未知、私有协议。现有的对未知协议解析方法
随着我国互联网和移动通信设施的快速建设,使得以互联网技术和移动通信技术为基础的移动互联网的迅速普及,并带来了在移动互联网上运营的社交媒体应用的繁荣。繁荣的社交媒体应用促进了进入互联网应用的门槛的降低,更多的人成为互联网信息的创作中心,丰富了互联网的内容。但是,互联网上丰富多彩的内容对在快速的生产生活节奏下的人们高效获取信息造成了障碍。通过高质量的文本摘要可以提升人们在选择和获取信息时的效率。随着计