蒙古文真词错误的侦测与纠错建议的生成研究

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户:wxpsth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对蒙古文文本字词级错误,借鉴其他语言成功的校对系统设计实现了具有真词错误查错与纠错建议生成功能的文本校对系统。在实现该系统的过程中,我们充分利用内蒙古大学蒙古学学院创建的1000万词级“现代蒙古语语料库”。首先,从语料库中提取词语同现频率。其次,在词语同现矩阵的基础上研制了真词错误查错模型。本文主要从以下几个方面进行研究并做了实验。  (1)本文实现的蒙古文真词错误校对系统主要有查错和纠错两个模块组成,由于纠错是在查错的基础上进行的下一步操作,因此蒙古文真词错误的查错研究更为重要。首先,我们先利用统计的方法从1000万词级语料库中提取了词语同现频率。然后统计得到的有效词频共1,845,983条。  (2)为了对可能出错的词语提供纠错建议,在借鉴人们以往的研究成果的基础上,建立了易混淆词词典,也就是纠错知识库。  (3)在词语同现矩阵的基础上,利用词的二元接续关系设计实现了蒙古文真词错误查错算法。并为已查到的真词错误提供纠错建议,在易混淆词词典的基础上设计实现了一种纠错建议生成的算法。  (4)在设计实现该系统的基础上,总结出实验全部过程中所遇到的问题及相应的解决方法。再对最后的实验结果进行分析和评价。
其他文献
知青小说——一个中国特殊的文学题材,有人总结知青小说的三大主题是:青春无悔,蹉跎岁月,劫后辉煌。很多知青文学评论者认为知青回忆录的大量出现是因为很多知青不满意知青文
“文化大革命”是当代中国灾难性的政治事件,它给中国人民造成严重的心灵创伤,影响了几代人的思想和生活,从1976年秋天文革结束到现在三十余年里,对“文革”进行书写已经成为中国