论文部分内容阅读
双语对齐是机器翻译研究中一个重要的问题,而词汇级对齐是各种粒度的对齐的难点。本文提出了一种基于双语词典、语言学知识以及统计方法的英汉词对齐的混合模型。
本文首先描述了一种词形处理的方法,根据规则和统计模型构造了一个词形还原器,以分析英文词汇变形,自动获得词汇的原形。该词形还原器能有效地处理未知词汇和实际用语中的模糊情况。其中,基于规则的方法综合了不同语料,电子字典以及经验规则等数据,而基于统计的方法主要应用了最大熵模型。
本文讨论了基于集合模式的词对齐方法,在对句对进行最优划分的基础上进行对齐,使得该对齐模型适用于任何双语文本,独立于语言。
本文提出的双语词对齐模型综合了基于词典和基于无词典的对齐思想,双语词典保证对齐效率,无词典对齐方法可以避免对词典的依赖性。
在基于词典的对齐模块中,本文通过引入最优匹配原则,有效处理了部分匹配问题;通过引入二元序列表示和锚点词,有效解决了重复词的对齐问题;通过引入同义词词典,有效弥补了双语词典覆盖范围不足的缺陷。
在基于无词典的对齐模块中,本文以不依赖于双语词典的统计方法为基础,通过引入相关规则对统计模型进行指导。当无法获得足够规模的语料,或者语料规模过大导致对齐效率过低时,规则的引入降低了系统对语料规模的依赖,更充分的利用了有限语料所提供的信息,使得整个模块既克服了简单共现中不能处理低频现象以及需要依靠经验设置频次阈值的不足,又弥补了纯粹集合运算方法在语料有效使用率过低的缺陷。
本文主要贡献有:
1.运用最大熵原理,有效解决了英文词形还原中的歧义问题。
2.提出了基于集合划分的词对齐的定义,并获得了一个方向无关的对齐策略。
3.引入了二元序列表示和锚点词对,有效解决了重复词的对齐问题。
4.改进了纯粹集合运算对齐方法,加入了语言学知识和规则,大大提高了语料使用率和对齐效果。本文通过对英汉双语词对齐技术的研究与实践,提出了一种可行性较强,效率和效果并重的解决方案。实验结粟表明,本模型具有较高的对齐效率和较好的对齐效果,同时能有效保持句子的原语法结构。