基于深度神经网络的蒙古文形态素解析研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:einstein_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文与属于孤立语系的汉语不同,它属于黏着语系,蒙古文词由词根、词干和词缀构成。通常把汉语的单词分割称为汉语分词,而蒙古文则需要做形态素分析,即不仅要做构词的形态素识别,还需要对形态素进行词性标注,即蒙古文形态素解析。蒙古文字大体可分为胡都木蒙文和拉丁蒙文两种,即老蒙文和新蒙文,由于彼此之间有不同的书写规则和语言特点,所以转换起来十分困难。蒙古文的词和词之间有天然的空格,因此不必像汉语一样进行分词。但是,蒙古文具有非常丰富的体、态、式的变化,蒙古文词的构成是通过在词根和词干后面缀接不同的词尾来实现的。所以,从形态素粒度出发,需要对蒙古文中构词的成分,即形态素进行切分,识别出每个词的词根、词干和词缀。蒙古文的词性种类繁多,需要根据粒度对句子中的形态素进行不同级别的词性标注,而蒙古文的很多形态素存在同一形态但词性不同的歧义问题,这使得蒙古文的词性标注任务具有相当高的复杂度。传统的蒙古文形态素切分和词性标注方法主要是基于规则、基于统计、规则和统计相结合等方法。这些方法具有特征工程难度大、切分和词性标注精度低下等问题。为了解决这些问题,本文提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法不需要人工制定规则或特征模板。本文的主要研究内容和创新点包括:(1)编制并构建了一份完整的传统蒙古文与拉丁新蒙文相互转换的对照表,包括字符转换对照表、标点符号转换对照表及特殊词语转换对照表。(2)融合蒙古文语言知识的数据前后处理,包括对蒙古文特殊控制符进行特殊处理、对词缀进行词频排序并反切原始语料、人工校正、词边界恢复、命名实体恢复、词性词典还原等。(3)提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法设计了一套新的六字标注方式用于蒙古文形态素的数据标注,形态素切分和词性标注系统采用Bi-LSTM+CRF框架。实验结果证明了提出方法的有效性。(4)提出了一种基于神经网络语言模型的蒙古文词性标注方法。实验结果证明,该方法通过融合预训练ELMO语言模型以及字符级别的基于Bi-LSTM的语言模型,可有效提升蒙古文形态素级别的词性标注的精度。
其他文献
近年来,中央反复强调"一定要讲政治"。这对高等教育的改革与发展具有重要的指导意义。高等教育必须把讲政治当作一个永恒的主题,贯穿始终。
在长期实践中,人们意识到可再生能源的重要性,风能作为近年来使用最广、技术最成熟的可再生能源,受到广泛关注。近海风力资源丰富优质,空间宽广,海上风电开发有着得天独厚的
<正>牢牢扭住国防科技自主创新这个战略基点。2013年11月5日在视察国防科学技术大学时,习近平就如何贯彻科技强军问题强调:要牢牢扭住国防科技自主创新这个战略基点,努力在前
<正>二次函数是中学数学的重头戏,初中就介绍了,到高中仍不断的出现,也是中学数学研究的重点,许多文章所研究的主要是三个二次(一元二次方程、一元二次不等式、一元二次函数)
<正>发展"学生核心素养"理念的提出,标志着课程教学正从"三维目标"的教学逐步转向以"素养为本"的教学,自主建构、合作探究、任务驱动等教学方式正深刻影响着我们的课堂.近日
在网络社交平台如此发达的今天,数量逐年激增的网络微型商家(微商)正大规模地潜入我们的日常生活,从微博、微信到各类社交平台,随处都能看到他们活动的身影。本文利用传播学
博弈效用中的参数是影响博弈均衡的主要诱导机制或激励机制。改变博弈效用参数、打破从众心理、加强行为互动是克服该困境的基本治理对策,且其在激励博弈群体作出符合社会价
病人服用免疫营养物质后对机体炎性反应的改变越来越受到人们重视。我们将综述胃肠肿瘤手术病人炎性反应的特点、免疫营养物质对其作用,以及不同免疫营养如谷氨酰胺类、精氨
P53是一种重要的抑癌基因,其突变、缺失、重排等现象的发生与人体多种肿瘤密切相关。P53基因在DNA的损伤、修复,细胞生长、分化,细胞凋亡等过程中发挥重要作用。目前,关于P53基因
众所周知,生命信息传递的物质基础是脱氧核糖核酸(DNA),DNA分子的破坏势必造成生命过程的障碍,甚至中断。因此对于DNA与其它分子作用及其相关研究是目前比较活跃的一个领域。特