中文文本的词语纠错方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:baolm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,中国经济蓬勃发展、国际竞争力不断提高,汉语的语言魅力吸引了越来越多的外国学习者进行学习,本文针对外国学习者学习汉语这一主题展开中文文本纠错的探究。中文文本的词语纠错方法研究是确保学习者在学习和交流时准确性的重要探究,是预估文本中错误存在与否并选取正确纠错字的关键技术手段,是中文自然语言处理研究领域中的重要课题。本文旨在辅助学习者纠正其在学习过程中产生的错误,同时也为减轻汉语教师的辅导压力。中文文本纠错研究从利于模型构建的角度出发,将纠错任务分成两大类:中文拼写纠错和中文语法纠错,分别构建模型进行纠错。在经由一系列详实的调查,概括了文本拼写问题的形成因素和类别,在N-gram语言模型基础上采用基于字的N元切分文本并统计其概率,引入混淆集和动态规划提高模型纠错效率,并使用平滑技术应对数据稀疏问题,提出了结合中文分词、二元模型和三元模型的算法,构建了基于N-gram的中文拼写纠错组合模型。针对中文语法纠错,本文将语法问题分为四大类:用词冗余、缺少词语、用词错误、词序错误。针对传统的基于统计的N元语言模型无法应对邻接词未登录以及长距离语法错误的问题,本文采用神经语言模型双向长短期记忆网络(BiLSTM)来建模,通过双向上下文信息来评测句子正误,此外,又引入了条件随机场(CRF)进行序列标注,并在嵌入层加入词性特征与词向量相结合作为BiLSTM输入,构建了基于BiLSTM-CRF的中文语法纠错模型,进一步优化了模型的纠错性能。利用开发评测数据集进行的实验结果表明,本文提出的基于N-gram的中文拼写纠错组合模型和基于BiLSTM-CRF的中文语法纠错模型在各自针对的错误领域内都取得了良好的效果。
其他文献
近年来,我国保险业高速发展,各大银行为扩大自己的业务范围、提高自己的盈利能力,相继控股保险公司,银行系保险公司应运而生。银行系保险公司借助关联银行强大的资源优势迅速
表现型水墨是中国传统水墨向现代化转型过程中出现的一种独特的绘画风格,是借鉴西方表现主义绘画的艺术形式与精神并融合中国写意水墨的一种新型的艺术创作形式,其兴起于20世
目的:运用六君子汤合金匮肾气丸化裁联合辅舒酮调治儿童哮喘慢性持续期脾肾气虚质患儿,通过比较分析患儿治疗前后的中医体质转化积分、中医主症积分以及哮喘控制水平分级等,
寻找新型的可再生能源是解决化工生产过程中出现的资源与环境句题的重要方法之一,其中化学能和电能之间的相互转化为发展稳定、便携的可再生能源提供了新思路。电催化反应对
从各国金融机制冲突、沿线发展中国家汇率风险传导、沿线国家金融错配影响以及对外投资的周期风险四个角度,运用专业的金融知识,根据相关国家金融政策和当今的国际经济形势,
编辑部的老师:我是个害怕孤独的人,喜欢结交朋友。大学的课余时间很充裕,我参加了各种社团活动,拥有很多朋友。起初我很兴奋,但渐渐发现自己很累,因为总有朋友请我帮忙或邀我出去玩
不按法律程序办案是案件质量问题的重要原因和集中表现。我国《刑事诉讼法》第3条规定:“人民法院、人民检察院和公安机关进行刑事诉讼,必须严格遵守本法和其他法律的有关规定
要问我的大学是什么,我要说它是一首诗,韵味无穷;它是一条河,蜿蜒曲绕;它是一座山.却没有山峰;它是天气,既有风霜雨雪,也有明媚阳光;它是味道,既有香甜.更有苦辣。我和所有的大学生一样,平
期刊
山西简称晋,别称三晋、山右、河东。山西有文字记载的历史已达三千年,它人灵地杰,历史悠久,并且是中国的早期发祥地之一。山西被世人誉为"华夏文明摇篮",并且享有"中国古代文