基于英汉双语语料库的词对齐方法与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:x1114891413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语对齐是机器翻译研究中一个重要的问题,而词汇级对齐是各种粒度的对齐的难点。本文提出了一种基于双语词典、语言学知识以及统计方法的英汉词对齐的混合模型。 本文首先描述了一种词形处理的方法,根据规则和统计模型构造了一个词形还原器,以分析英文词汇变形,自动获得词汇的原形。该词形还原器能有效地处理未知词汇和实际用语中的模糊情况。其中,基于规则的方法综合了不同语料,电子字典以及经验规则等数据,而基于统计的方法主要应用了最大熵模型。 本文讨论了基于集合模式的词对齐方法,在对句对进行最优划分的基础上进行对齐,使得该对齐模型适用于任何双语文本,独立于语言。 本文提出的双语词对齐模型综合了基于词典和基于无词典的对齐思想,双语词典保证对齐效率,无词典对齐方法可以避免对词典的依赖性。 在基于词典的对齐模块中,本文通过引入最优匹配原则,有效处理了部分匹配问题;通过引入二元序列表示和锚点词,有效解决了重复词的对齐问题;通过引入同义词词典,有效弥补了双语词典覆盖范围不足的缺陷。 在基于无词典的对齐模块中,本文以不依赖于双语词典的统计方法为基础,通过引入相关规则对统计模型进行指导。当无法获得足够规模的语料,或者语料规模过大导致对齐效率过低时,规则的引入降低了系统对语料规模的依赖,更充分的利用了有限语料所提供的信息,使得整个模块既克服了简单共现中不能处理低频现象以及需要依靠经验设置频次阈值的不足,又弥补了纯粹集合运算方法在语料有效使用率过低的缺陷。 本文主要贡献有: 1.运用最大熵原理,有效解决了英文词形还原中的歧义问题。 2.提出了基于集合划分的词对齐的定义,并获得了一个方向无关的对齐策略。 3.引入了二元序列表示和锚点词对,有效解决了重复词的对齐问题。 4.改进了纯粹集合运算对齐方法,加入了语言学知识和规则,大大提高了语料使用率和对齐效果。本文通过对英汉双语词对齐技术的研究与实践,提出了一种可行性较强,效率和效果并重的解决方案。实验结粟表明,本模型具有较高的对齐效率和较好的对齐效果,同时能有效保持句子的原语法结构。
其他文献
天网 Ftp 资源搜索引擎的前身是天网千帆,它是一个基于Web的海量Ftp搜索引擎,以用户关键词和Ftp文件名匹配的方式来实现对Ftp文件的搜索,方便用户查找和下载互联网上的Ftp文件资
传感器节点的能量和功能有限,使用不同的路由协议将会对网络的能量消耗大小产生不同的影响,而设计一个能量高效、传输延迟低、容错性高、安全性好的路由协议又是非常有难度的事
随着电气、电子、计算机和信息技术的飞速发展,嵌入式技术越来越受到人们的关注,应用领域几乎遍及所有的电子产品:智能机器人,网络通信设备,军用设备,汽车导航,环境保护,智能仪器,安全
长期以来,人脸表情动画生成技术一直是计算机图形学的研究热点之一。由于脸部模型的复杂性、表情的多样性,生成具有实时性和真实感的动画是人们面临的严峻挑战,而如何创建一个既
学位
侧面分离系统功能性关注点与核心关注点,简化了软件维护,提高了软件复用。动态侧面能动态的将侧面代码编织到应用程序,使得应用程序无需重启即可改变行为,提高了应用程序的灵活性
随着国际互联网络的发展,越来越多的公司企业或者政府部门开始利用网络完成更多的事情。但随之而来,网络安全问题也日益突出,从而他们对网络安全设备提出了更多的要求。因此,防火
阅读文本是人类最为普遍的获取信息的方式之一。视频中蕴藏着大量的文本信息可以为视频的分类、索引和检索等提供可靠的线索,因此视频中的文字检测和提取已成为理解视频内容的
目前视频会议技术已经成为计算机领域开发和研究的热点。在对视频会议系统开发中,视频编解码技术是其比较核心的部分。 这部分工作尤其需要着重注意两点:一方面需要选择适合
随着企业信息自动化要求的提高,各个系统之间的通讯和相互调用日益重要。为了保护原有投资和缩短开发周期,企业不是完全摒弃遗产系统从头开发全新的应用系统,而是尽量把它们复用
设计一个高精度、可配置的数控机床模拟器,能在很大程度上提高数控系统测试的测试效率和精度。本文在原有的伺服模拟器硬件平台基础上,利用Windows CE开发平台,设计出功能比