基于多覆盖模型的神经机器翻译

来源 :软件学报 | 被引量 : 0次 | 上传用户:paul5260
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
覆盖模型可以缓解神经机器翻译中的过度翻译和漏翻译问题.现有方法通常依靠覆盖向量或覆盖分数等单一方式存储覆盖信息,而未考虑不同覆盖信息之间的关联性,因此对信息的利用并不完善.针对该问题,基于翻译历史信息的一致性和模型之间的互补性,提出了多覆盖融合模型.首先定义词级覆盖分数概念;然后利用覆盖向量和覆盖分数存储的信息同时指导注意力机制,降低信息存储损失对注意力权重计算的影响.根据两种覆盖信息融合方式的不同,提出了两种多覆盖融合方法.利用序列到序列模型在中英翻译任务上进行了实验,结果表明,所提方法能够显著提升翻译性能,并改善源语言和目标语言的对齐质量.与只使用覆盖向量的模型相比,过度翻译和漏翻译问题的数量得到进一步减少.
其他文献
持久性内存(persist memory,PM)具有非易失、字节寻址、低时延和大容量等特性,打破了传统内外存之间的界限,对现有软件体系结构带来颠覆性影响.但是,当前PM硬件还存在着磨损不均衡、读写不对称等问题,特别是当跨NUMA (non uniform memory access)节点访问PM时,存在着严重的I/O性能衰减问题.提出了一种NUMA感知的PM存储引擎优化设计,并应用到中兴新一代数据库系统GoldenX中,显著降低了数据库系统跨NUMA节点访问持久内存的开销.主要创新点包括:提出了一种DRA
大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后