论文部分内容阅读
本文针对蒙古文文本字词级错误,借鉴其他语言成功的校对系统设计实现了具有真词错误查错与纠错建议生成功能的文本校对系统。在实现该系统的过程中,我们充分利用内蒙古大学蒙古学学院创建的1000万词级“现代蒙古语语料库”。首先,从语料库中提取词语同现频率。其次,在词语同现矩阵的基础上研制了真词错误查错模型。本文主要从以下几个方面进行研究并做了实验。 (1)本文实现的蒙古文真词错误校对系统主要有查错和纠错两个模块组成,由于纠错是在查错的基础上进行的下一步操作,因此蒙古文真词错误的查错研究更为重要。首先,我们先利用统计的方法从1000万词级语料库中提取了词语同现频率。然后统计得到的有效词频共1,845,983条。 (2)为了对可能出错的词语提供纠错建议,在借鉴人们以往的研究成果的基础上,建立了易混淆词词典,也就是纠错知识库。 (3)在词语同现矩阵的基础上,利用词的二元接续关系设计实现了蒙古文真词错误查错算法。并为已查到的真词错误提供纠错建议,在易混淆词词典的基础上设计实现了一种纠错建议生成的算法。 (4)在设计实现该系统的基础上,总结出实验全部过程中所遇到的问题及相应的解决方法。再对最后的实验结果进行分析和评价。