【摘 要】
:
基于神经网络实现的机器翻译模型已逐渐成为机器翻译的常用方法。但自然语言的复杂性和神经网络随机性导致了未登录词和翻译不可控等问题,同时现有的基于注意力机制的神经机
论文部分内容阅读
基于神经网络实现的机器翻译模型已逐渐成为机器翻译的常用方法。但自然语言的复杂性和神经网络随机性导致了未登录词和翻译不可控等问题,同时现有的基于注意力机制的神经机器翻译模型一般通过序列化的编码解码实现翻译过程,忽略了语言的依存关系和层次特征。针对现有问题,本文在端到端的神经网络翻译模型中引入预处理语言数据所得到的词语类别和依存关系等信息作为先验知识,对经典的神经网络机器翻译模型进行改进。(1)利用命名实体识别摘取出语句中需要固定翻译的实体词汇,采用标签替换的方式弥补神经网络随机性的弱点,通过改进的注意力机制和多任务学习等方法提升词对齐效果;(2)利用依存句法分析获得语句中词语的依赖关系树,按照不同的模型结构转化为依存关系矩阵或词块切分权重序列等形式,结合多头自注意力机制和门控等思想,在编码和解码阶段为神经网络翻译模型提供句法信息,强化神经网络提取隐藏特征的能力。本文设计并执行了多组实验,在词法改进上统计了命名实体词的召回率和整体翻译评价指标的性能变化,在句法改进上统计了翻译性能的变化。通过对比实验发现大部分改进方案在命名实体的召回率和翻译评价指标等方面得到了明显的提升,在词法和句法实验上BLEU指标相对各自的baseline最高分别提升了2.32和1.86个点,两种优化方案结合后也得到了综合的最佳优化效果。证明了词法和句法信息的引入对基本模型整体上起到了积极效果。
其他文献
低温影响大多数植物的正常生长周期,导致作物产量的降低,严重时能造成植物的死亡。油菜是我国重要的油料作物,在西北地区广泛种植,冬季西北地区气温较低,因此,低温严重降低西
2008年2月底,经国务院批准设立宁波梅山保税港区,是中国第五个,也是浙江省唯一的保税港区。从2008年的财政收入4500万元,到2017年财政收入超过100亿元。经过10年,梅山保税港
目的:研究孕酮在先兆流产中的作用。方法:两名研究员通过在 PubMed、Embase、Cochrane Library、Web of Science、CNKI、万方、维普七个主要医学数据库上搜索相关文献,选择在
目的:探讨纳豆及纳豆联合补气活血方对气虚低凝血瘀状态大鼠的影响,以了解在纳豆的基础上,联合补气活血方后对气虚低凝血瘀状态大鼠的改善作用是否提高,并且对其改善作用进行
在化石能源日益短缺,环境问题日趋严重的今天,研究和开发高效、清洁的发电技术已迫在眉睫。高温燃料电池是一种直接将化学能高效转换为电能的清洁发电技术,同时其高温排气具
并网逆变器作为能量回馈系统的重要组成部分,直接影响到并网系统的输出电能质量。本文所提的逆变器控制策略可以有效抑制并网电流谐波分量,提高并网系统的稳定性,有助于缓解
腹泻是现代猪场集约化规模养殖过程中常见的疾病,给养殖场带来巨大的经济损失。多种因素均可导致仔猪腹泻,研究表明产肠毒素大肠杆菌F4ac以及F18是导致仔猪腹泻的重要病原微
由于8-羟基喹啉功能材料在光学传感器、有机电致发光器件等方面的应用,因此近年来一直受到学术界和工业界的研究者们的广泛关注。本论文以8-羟基喹啉骨架为平台,设计合成了几
隔震建筑经历了实际地震的考验,表现出了优良的减震性能;目前,人们对于高层隔震建筑的减震原理并未清晰,高层隔震建筑也存在结构倾覆稳定的问题,隔震技术并未广泛的应用于高
在生产力高速发展的今天,我国的基础建设正呈现一种高速发展的状态,做为土木工程技术领域不可缺少的一环,爆破技术现今已经在多个建造领域尤其是大型土石方工程中体现出卓越