神经机器翻译中英语单词及其大小写联合预测模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：hy_mon

【摘要】

：

英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具

【作者】

：

张楠李响靳晓宁陈伟

【机构】

：

北京工业大学北京未来网络科技高精尖创新中心,中国科学院计算技术研究所,中国科学院大学,北京搜狗科技发展有限公司

【出处】

：

中文信息学报

【发表日期】

：

2019年3期

【关键词】

：

机器翻译大小写恢复联合预测 machine translation case restoration joint prediction

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到

其他文献

面向文本数据的正则化交叉验证方法

面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会

期刊

文本数据正则化交叉验证信噪比text data setsregularizationcross-validationsignal-to-noise

三角域和矩形域上Bezier曲面之间的几何连续条件

Kahman给出了相邻的矩形域上的Bezier曲面及相邻的三角域上Bezier曲面之间GC2连续条件.利用相邻矩形域上的Bezier曲面之间的GC2连续条件及Bezier曲面的高阶编导数,得到了相邻

期刊

BEZIER曲面GC^2连续三角域矩形域几何连续条件Bezier surface GC2 continuity triangular doma

基于汉盲对照语料库和深度学习的汉盲自动转换

汉盲转换是指将汉字文本自动转换为对应的盲文文本,其在盲文出版、盲人教育等领域具有重要应用价值,但当前已有系统性能难以满足实用需求。该文提出一种基于汉盲对照语料库和

期刊

汉盲转换中国盲文盲文语料库深度学习Chinese-Braille conversionChinese BrailleBraille corpusd

影响音视频电子产品安全测试的主要试验条件的探讨

通过对影响音视频产品安全测试的主要条件分析,帮助检测人员更好地理解这些主要测试条件,并在音视频产品的安全检测中,能对这些条件进行最不利的组合,确保产品达到标准的安全

期刊

故障条件最不利组合温升fault conditionthe most unfavourable combination conditiontemper

工厂制造执行系统的探讨

文章主要介绍了索威制造执行系统的特色创新、网络结构、系统配置、应用系统体系结构，详细介绍索威制造执行系统的主要功能：

期刊

制造执行系统条码技术Manufactory execute system barcode technology

向量模型和多源词汇分类体系相结合的词语相似性计算

现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上

期刊

词语相似性向量模型词汇分类体系组合方法多源融合word similarityvector-based modellexical taxonomy

神经机器翻译中英语单词及其大小写联合预测模型

其他学术论文