基于词干词尾的汉维统计机器翻译的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:windflyness
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是采用计算机技术来完成现实生活中各种语言间的互相翻译,是自然语言处理的一个重要方向。近年来,基于语料库的机器翻译方法受到了研究者的追捧。针对少数民族语言机器翻译的研究尚在起步阶段,特别是维吾尔语,属于黏着语的一种,有着丰富而复杂的形态变化,对它的研究有着重要的意义。本文将围绕维吾尔语的特点,主要从以下几个方面对影响汉语-维吾尔语统计机器翻译的因素进行了研究,具体的讲:  1.研究了维吾尔语以及汉语采用经典的IBM自动统计词对齐方法进行词对齐的过程中所存在的一些问题,同时提出了适用于汉维机器翻译的词对齐方案;并且进行了词对齐实验,详细分析了试验的结果,获得了良好的对齐效果和较大幅度的统计词对齐的提升。  2.研究了维吾尔语构形词缀对汉维统计翻译影响,在现有的统计机器翻译研究技术和资源的基础上,使用统计机器翻译工具,进行了不同粒度维吾尔语对汉维统计机器翻译质量的影响的实验,将维吾尔语词切分为词干词尾粒度很好的解决了汉维翻译过程中的数据稀疏问题。  3.针对维吾尔语的黏着语特性,提出了一种基于有向图的维吾尔语“词干-词缀”语言模型,并且将图状语言模型应用到形态分析和统计机器翻译这两个不同的自然语言处理任务中,基于开放语料的实验证明新型图状语言模型相比 n元语言模型效果有显著的提升。
其他文献
进化算法和群智能算法等元启发式算法是目前求解复杂计算问题的主要方法。烟花爆炸算法(也称烟花算法—Fireworks Algorithm,FWA)是一种模拟烟花爆炸过程的元启发式算法,它在求解
随着计算机网络技术的不断发展,以及互联网产业的异军突起,网络中的信息量呈爆炸式增长,数据的可靠性和安全性受到越来越广泛的关注。基于光纤通道技术的存储区域网络为存储
一般目标类识别和行为识别是当前计算机视觉界研究的热点问题。词袋模型为解决该类问题提供了一个基本框架。词袋模型涉及四个关键的因素:局部特征检测、局部特征描述、视觉
近年来,实时系统由于其响应及时,可靠性强的特点,已经广泛应用于像航空、军事,交通和工业等领域。然而,随着大规模集成电路工艺技术的不断发展,处理器上的功耗密度和能量消耗
三维人体动画技术在动漫游戏、影视特技、运动仿真和虚拟现实等领域占有重要地位,是计算机动画领域的一大研究热点。近些年,机器学习技术被广泛应用于三维人体运动合成,取得
机器翻译(Machine Translation,简称 MT)是指借助计算机设备来完成自然语言翻译工作,例如:汉语翻译成哈萨克语或哈萨克语翻译成汉语。机器翻译有多种翻译方法和策略,但各方法都
随着计算机网络的飞速发展,网络安全引起了人们越来越多的关注,入侵检测则成为安全专家积极研究的重要课题。入侵检测方法主要分为误用入侵检测和异常入侵检测,它们各有各的优势
互联网的迅猛革命将我们带入了信息社会和网络经济时代,对企业发展和个人生活都产生了深远的影响。基于互联网电子商务模式的虚拟企业不再需要像传统物理环境下的企业那样大量
作为物联网系统关键技术之一,RFID(无线射频识别技术)已被广泛应用于各种领域。然而由于RFID数据具有海量性、实时性、语义隐含性和数据不准确性等特点,直接利用现有的传统数
在医疗保险领域中,随着经济的发展和制度的完善变化,参保人员增多、医保业务更复杂、涉及的组织机构越来越广泛,需要管理的信息朝着多样化的方向急剧增长,业务系统之间的信息共享