论文部分内容阅读
蒙古文与属于孤立语系的汉语不同,它属于黏着语系,蒙古文词由词根、词干和词缀构成。通常把汉语的单词分割称为汉语分词,而蒙古文则需要做形态素分析,即不仅要做构词的形态素识别,还需要对形态素进行词性标注,即蒙古文形态素解析。蒙古文字大体可分为胡都木蒙文和拉丁蒙文两种,即老蒙文和新蒙文,由于彼此之间有不同的书写规则和语言特点,所以转换起来十分困难。蒙古文的词和词之间有天然的空格,因此不必像汉语一样进行分词。但是,蒙古文具有非常丰富的体、态、式的变化,蒙古文词的构成是通过在词根和词干后面缀接不同的词尾来实现的。所以,从形态素粒度出发,需要对蒙古文中构词的成分,即形态素进行切分,识别出每个词的词根、词干和词缀。蒙古文的词性种类繁多,需要根据粒度对句子中的形态素进行不同级别的词性标注,而蒙古文的很多形态素存在同一形态但词性不同的歧义问题,这使得蒙古文的词性标注任务具有相当高的复杂度。传统的蒙古文形态素切分和词性标注方法主要是基于规则、基于统计、规则和统计相结合等方法。这些方法具有特征工程难度大、切分和词性标注精度低下等问题。为了解决这些问题,本文提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法不需要人工制定规则或特征模板。本文的主要研究内容和创新点包括:(1)编制并构建了一份完整的传统蒙古文与拉丁新蒙文相互转换的对照表,包括字符转换对照表、标点符号转换对照表及特殊词语转换对照表。(2)融合蒙古文语言知识的数据前后处理,包括对蒙古文特殊控制符进行特殊处理、对词缀进行词频排序并反切原始语料、人工校正、词边界恢复、命名实体恢复、词性词典还原等。(3)提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法设计了一套新的六字标注方式用于蒙古文形态素的数据标注,形态素切分和词性标注系统采用Bi-LSTM+CRF框架。实验结果证明了提出方法的有效性。(4)提出了一种基于神经网络语言模型的蒙古文词性标注方法。实验结果证明,该方法通过融合预训练ELMO语言模型以及字符级别的基于Bi-LSTM的语言模型,可有效提升蒙古文形态素级别的词性标注的精度。