【摘 要】
:
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具
【机 构】
:
北京工业大学北京未来网络科技高精尖创新中心,中国科学院计算技术研究所,中国科学院大学,北京搜狗科技发展有限公司
论文部分内容阅读
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到
其他文献
面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会
Kahman给出了相邻的矩形域上的Bezier曲面及相邻的三角域上Bezier曲面之间GC2连续条件.利用相邻矩形域上的Bezier曲面之间的GC2连续条件及Bezier曲面的高阶编导数,得到了相邻
汉盲转换是指将汉字文本自动转换为对应的盲文文本,其在盲文出版、盲人教育等领域具有重要应用价值,但当前已有系统性能难以满足实用需求。该文提出一种基于汉盲对照语料库和
通过对影响音视频产品安全测试的主要条件分析,帮助检测人员更好地理解这些主要测试条件,并在音视频产品的安全检测中,能对这些条件进行最不利的组合,确保产品达到标准的安全
文章主要介绍了索威制造执行系统的特色创新、网络结构、系统配置、应用系统体系结构,详细介绍索威制造执行系统的主要功能:
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上