【摘 要】
:
随着全球化的不断深入,国家与国家之间、民族与民族之间的交流日渐频繁,但各国家、民族之间由于语言差异而形成沟通障碍,机器翻译的出现打破了这种沟通障碍,并逐步成为不同国家与民族之间的沟通桥梁。蒙古语,一种少数民族语言,在世界范围内使用人数甚少,现阶段主要为内蒙古地区的蒙古族人民以及蒙古国人民使用。随着蒙汉民族之间的交流日渐增多,汉蒙机器翻译逐步发展起来,然而由于其推广较晚,并且有限的语料资源成为其发展
论文部分内容阅读
随着全球化的不断深入,国家与国家之间、民族与民族之间的交流日渐频繁,但各国家、民族之间由于语言差异而形成沟通障碍,机器翻译的出现打破了这种沟通障碍,并逐步成为不同国家与民族之间的沟通桥梁。蒙古语,一种少数民族语言,在世界范围内使用人数甚少,现阶段主要为内蒙古地区的蒙古族人民以及蒙古国人民使用。随着蒙汉民族之间的交流日渐增多,汉蒙机器翻译逐步发展起来,然而由于其推广较晚,并且有限的语料资源成为其发展的阻碍,进而造成现有的汉蒙机器翻译成果较少,现阶段仍处于不断探索的阶段,需要进一步研究和学习。在机器翻译中语义表示的作用显而易见,主要是因为它可以帮助执行意义保存和处理数据稀疏,语义表示在统计机器翻译中已取得了长足的进步,但利用语义表示进行神经机器翻译受到的关注却很少。AMR(Abstract Meaning Representation,抽象语义表示),是一种新型的句子的语义表示方法,采用单根有向无环图结构,将句子中的实词表示为图的节点,实词之间的关系表示为边。它可以基本完整而又准确地表示一个句子的语义关系,自提出以来,备受关注。近年来,随着AMR语义分析系统的不断强大,它可以助力于更多自然语言处理任务,如情感分析、关系提取、文本摘要等,但是将AMR用于机器翻译的研究却很少,一些AMR的相关研究证明,AMR的确可以帮助提高机器翻译质量,所以本文研究使用AMR语义知识辅助汉蒙神经机器翻译。在语料的构建工作中,首先将现有的蒙汉对齐语料中的汉语部分采用结巴分词工具进行分词,然后将分词后的语料采用美国南加州大学的AMR编辑器生成AMR语义图。由于蒙古语属于低资源语言,汉蒙平行语料资源有限,因此在机器翻译中常常出现未登录词现象而导致翻译效果差的问题,为缓解这一问题,本文对蒙汉双语采用BPE技术进行子词切分操作。在模型构建工作中,由于AMR语义和源语言句子之间没有一一对应的关系,因此本文采用双编码器-解码器架构搭建汉蒙机器翻译模型,采用双向LSTM编码源语言句子,为了适应AMR图结构特性,采用图循环神经网络编码由源语言句子生成的AMR语义图,而解码器端则采用循环神经网络并分别对两个编码器建立注意力模型。同时为了与该模型进行对比,还增加了一个双编码器-解码器模型,在新的模型中,编码源语言句子和解码器模型不变,不同的是在编码器端采用另一个双向LSTM对线性化后的AMR图进行编码,最终实验结果证明,加入AMR语义知识确实有助于提高汉蒙机器翻译的质量。而AMR语义图采用图循环神经网络对其进行编码的效果更佳。同时,在编码器-解码器模型训练之前,分别采用Word2vec和Glo Ve模型生成蒙汉词向量,并进行效果对比。为了进一步探究AMR语义在执行语义保存和处理数据稀疏方面有相对的优势,本文将依存句法树引入,让其辅助汉蒙神经机器翻译,同样地,采用双编码器-解码器模型,不同的是采用图卷积神经网络编码依存句法树,实验结果证明加入依存句法树同样有助于提高汉蒙神经机器翻译质量,但在数据量相同的情况下,加入AMR语义表示比加入依存句法树的汉蒙机器翻译效果更好,更进一步说明AMR对于执行语义保存和处理数据稀疏的能力更强。
其他文献
基因技术从其产生开始便引起社会科学界的关注和争论。多年来,关于基因技术的社会研究主要集中在伦理学方面,事实上,由于基因技术的普遍性和特殊性,它已经成为整个人类社会的重大问题,对它的研究也不应只局限于伦理学范围,而应将视野扩展至哲学、社会学、人类学等其它学科。论文在吸收现有研究成果的基础上,从个体人、群体人、和类人三大层面系统地考察研究基因技术对人(包括个人、社会、人类)产生的影响,卉对当下学界的一
本文研究了单模q-形变光场与E型三能级原子相互作用系统和单模q-形变光场与E型三能级原子依赖强度耦合系统中的两种量子特性。通过数值计算,分析了旋波近似以及共振条件下这两种系统中形变参数q对光子反聚束效应和原子偶极压缩效应的影响。不同于平均光子数万的线性影响,形变参数q增大将导致光子数算符[n]非线性增大,非线性地调整两种量子现象随时间演化曲线所包含的各种周期、振幅不同的波动,使各种波动以不同的周期
microRNA是一类内源性的长度在22个核苷酸左右的非编码小分子RNA,它们广泛存在于真核生物基因组中。成熟的microRNA是由茎环结构前体pre-miRNA加工而来。microRNA基因具有三大生物学特性:保守性,基因成簇存在和时空特异性表达。成熟microRNA通过翻译抑制和靶mRNA降解两种机制来调控基因表达,在动植物的生长发育,细胞的增殖与死亡,细胞分化及肿瘤治疗等多种领域发挥着重要的
沙鸡(Pterocles)的分类问题一直困扰着鸟类学家。目前,对于沙鸡的分类有四种不同的观点:一种观点是将沙鸡归入鸡形目(Galliformes);另一种观点是将沙鸡归入鸽形目(Columbiformes);第三种观点是将沙鸡归入鸻形目(Charadriiformes);第四种观点是将沙鸡独立为目。鸥类的分类地位在目前也有两种不同的观点:一种是将鸥类归入鹆形目;另一种是将鸥类独立为鸥形目(Lari
本研究以牛的体细胞核移植为主题,比较了牛卵母细胞的不同采集方法、成熟培养方法以及牛卵母细胞的孤雌激活方法;分离并传代培养了牛的不同体细胞;并在此基础上较为深入的研究了影响牛体细胞核移植过程的激活方法、融合条件、发育培养的气相条件和供体细胞的血清饥饿状态等各个环节,比较了供体细胞的不同种类、不同来源和不同代次对重构胚发育的影响。 一、牛卵母细胞的采集、成熟培养及孤雌激活 1.以两种不同的
从20世纪60年代开始,随着科学技术的飞速发展,非线性科学已被深入研究并广泛应用于各种自然学科,例如机械、化学工程、电机、能源、土木工程、光学科学、通信、生物学、自动控制、材料等方面,同时出现了许多非线性发展方程式(简写为NLEE).目前,非线性科学已经渐渐成为了一门非常重要的现代学科,它能够很好的折射客观世界的发展变化规律,诠释个体与个体之间的相互联系.对这些非线性科学现象进行建模,并寻求这些N
骨骼肌肌球蛋白是肌肉收缩的关键成分,是把贮存在ATP中的化学能转化为机械能的分子马达。分子马达广泛存在于动、植物中,是生物体中多种运动的本质动因。有关分子马达的研究成为生物物理领域的热点问题之一。目前,在众多的分子马达中对骨骼肌肌球蛋白的研究较多,对其结构、工作循环机制及单分子动力学性质进行了探索。同时,对各种生化条件下肌纤维的收缩性质进行了研究。本文拟对肌肉收缩过程中的力与速度关系、肌球蛋白定向
谱方法作为求解微分方程的一种重要数值方法,是近40年来发展较快且相对成熟的数值方法,同有限差分法、有限元法相比,谱方法具有求解速度快、精度高、无穷阶收敛等优点.从七八十年代开始,随着现代电子计算机技术的飞速发展,谱方法的发展达到了前所未有的高度,被广泛应用于求解涉及物理学科、海洋科学、大气科学和工程技术等相关领域的微分方程,其基本思想是用整体光滑的试函数全局逼近问题的精确解,因此只要所求解的微分方
随着国民经济的发展,我国汽车保有量已经达到3.6亿辆。急速增长的车流量导致高速路网运行能力下降、交通事故高发、城市环境污染加剧、交通运营管理困难。及时准确的车流量预测作为智能交通系统(Intelligent Transportation Systems,ITS)中的研究主题之一,能够帮助交管部门针对外出车流进行提前约束和诱导,提高出行效率。针对现有研究存在对交通流时空特征提取不完整、预测精度不高、
随着科学技术的迅速发展,在物理学、工程、经济等领域出现了大量的数学物理方程,并且很多自然现象、物理现象、力学问题等都可通过这些数学物理方程来描述,这给我们对数学物理方程的研究提供了可靠的物理背景和实际意义.对称、守恒律和解在数学物理方程的研究中发挥着重要的作用,对称反应数学物理方程结构的规律,守恒律反映数学物理方程运动变化的特征,解将揭示方程物理性质的变迁.在过去的几十年里,诸多数学物理爱好者积极