大规模平行语料库的并行对齐方法的研究及应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:TDH39520007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理的一个范畴,它是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。机器翻译技术的实现主要分为基于规则的和基于语料库的两类,其中,基于语料库的方法又可以分为基于统计和基于实例的方法。因为统计机器翻译系统能够自动从双语语料中获取模型系统需要的各个参数,需要较少的人工干预,近年来获得了快速发展。   统计机器翻译中词对齐是一个重要环节。当前统计机器翻译中普遍使用GIZA++作为对齐工具,该工具是针对统计机器翻译模型的训练工具集。这个工具可以生成IBM的5个统计翻译模型,采用两种方向的训练。但目前的GIZA++在进行大规模语料库的训练时会花费大量的时间。通过使用并行方法可以大大提高训练速度,节省时间。目前已有的并行对齐方法包括使用多处理器方法和使用集群方法。   本文首先介绍了统计机器翻译特别是对齐方面的历史、研究现状、主要方法和分类,之后详细介绍GIZA++工具所实现的IBM5个翻译模型。   其次,介绍GIZA++并行化的理论依据,介绍当今世界上已有的两种并行化方法,详细介绍GIZA++多处理器并行化过程中使用到的各种技术,描述了POSIX多线程编程技术以及GIZA++多处理器并行化过程并简单介绍cygwin模拟环境。   再次,以Windows系统下已存在的GIZA++为基础,参考linux系统下的多处理器并行工具MGIZA++,完成Windows系统下的并行对齐工具WinMGIZA++,同时也使用cygwin模拟环境实现linux下的MGIZA++的Windows版本CWinMGIZA++。并详细介绍工作经验和遇到的问题。   最后,利用已有的汉英双语语料库,使用GIZA++和WinMGIZA++对相同大小的汉英双语语料库进行训练,统计两种情况下资源的消耗数据,包括内存的消耗和时间的长短。并通过使用最小二乘法对这些数据进行函数拟合,对GIZA++和WinMGIZA++的计算性能进行初步的预测分析。实验表明,虽然使用WinMGIZA++进行双语语料库的对齐训练与使用原始GIZA++进行训练的训练效果以及消耗的系统内存接近,但使用WinMGIZA++消耗时间更短,效率更高。
其他文献
移动通信业务中的短信息业务(Short Message Service,SMS)日益普及,其用户和业务量也在飞速增长,所以利用SMS进行信息处理的企业必须在最短的时间内来推送短信,从而确保其大
随着信息化时代的到来,信息资源呈爆炸式的扩张。人们对于信息资源的采集、存储、管理、分析等也提出了更高的要求。为了解决人口、资源、土地、环境、灾害、规划、建设等一系
近年来,嵌入式技术取得了快速发展。嵌入式处理器是嵌入式系统的核心部件,消耗了系统很大一部分能量。然而,随着能量消耗增多,温度升高,失效率增大。另外,许多嵌入式产品依靠
文本分类系统的主要任务是在分类体系给定的条件下,根据文本的内容由机器确定该文本所属的类别。文本分类系统被广泛地应用于组织文本、改进检索结果、趋势预测、数字图书馆
IETF于2008年8月提出了基于网络移动性的代理移动IPv6协议简称PMIPv6。在PMIPv6的整个切换过程中不需要移动节点(MN)的参与,由移动接入网关(MAG)代替移动节点与本地移动锚节点
随着信息技术的快速发展与网络资源共享的广泛需求,互联网上出现了大量的资源盗链现象。资源盗链是指盗链者通过技术手段“偷偷”地将合法网站的资源链接到自己的网站,资源盗链
计算机软硬件技术的快速发展,使得软件的应用渗透到了社会的各个领域,从手机到internet,软件在人们的生活中扮演着重要的角色。然而,随着软件复杂性的提高,软件开发的质量和效率却
伴随着全球信息化的发展趋势,管理信息系统(MIS)成为现代企业业务活动的重要支撑。由于社会的发展和经济的增长,企业业务不断深入与扩展,对信息系统的依赖程度也不断加强。在
随着以高清编解码技术为核心的新一代音视频处理的高速发展,大体积高清视频的传播已如家常便饭,大量提供下载高清视频的网站涌现出来。由于高清巨大的潜在价值和商业空间,各
伴随互联网的发展,即时通信已经成了和电话一样重要且更经济的一种通信方式。QQ就是在中国用户数量最大的即时通信应用,目前QQ的同时在线用户数已经突破了1.3亿,由此可见即时