汉蒙统计机器翻译中的形态学方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ktcargo147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于短语的统计机器翻译是机器翻译研究的一个热点。当前汉英等语言间的统计机器翻译研究条件不仅双语平行语料库规模充足,而且相关语言的词法、句法分析等方面的基础性研究也十分成熟,这就为其研究提供了一个良好的平台。但是,以上条件对于汉蒙统计机器翻译还很匮乏。这方面研究的困难主要有两点:第一,蒙古语信息化建设相对于汉语来说比较滞后,不仅平行语料库建设规模较小,而且词法及句法分析方面的基础性研究还正在跟进,这很大程度限制了汉蒙统计机器翻译的发展;第二,由于蒙古语属于黏着语,形态变化极为丰富,与作为孤立语的汉语形式相差甚远,因此汉蒙统计机器翻译存在的问题较多,尤其表现在译文词形错误及语序混乱这两个方面。本文以汉蒙统计机器翻译为研究对象。针对蒙古语形态变化丰富这一特点,将形态因子引入到汉蒙统计机器翻译中,通过因子化模型充分利用了蒙古语的形态信息;针对汉蒙平行语料库规模较小这一问题,将基于词典的词对齐方法产生的词对齐点融合到IBM词对齐模型中,并利用蒙古语的词干形态知识提高基于词典方法的汉蒙词对齐质量,再利用融合后的词对齐点训练短语翻译模型,进而用于基于短语的汉蒙统计机器翻译,最终提高译文质量。在统计机器翻译中,翻译模型是唯一不可取代的模型,其重要性不言而喻。针对训练过程造成的短语翻译模型中短语翻译对冗余问题,本文设计并实现了一种通用的基于统计方法的短语翻译模型过滤器,这种过滤器可以根据不同的统计方法对翻译模型进行降噪,在有效降低短语翻译模型规模的同时对统计机器翻译译文的质量影响甚微。关于本研究所提的每部分都有相关对比实验,通过这些对比实验来验证本文所提方法的有效性,同时也探讨了一些方法继续深入研究的可能性。
其他文献
本课题是与西南油气田分公司合作的横向课题。该手持式杂散电流检测仪主要用来采集和处理杂散电流信号,具有功耗低、自动化、设置灵活、人机界面友好等特点。根据实际工程需要,采用了低功耗的MSP43OF1611单片机作为核心器件。整个系统由主控模块、数据采集模块、数据存储模块、电源模块和显示与控制模块五部分组成,实现了数据采集、时钟读写、系统设置、液晶实时显示波形、键盘控制、SD卡便携式数据存储等功能。系统
随着人们对知识的日益渴求和学习方式的多样化,以及嵌入式软硬件技术的迅猛发展,学习机作为一种学习辅助工具正大规模走入学生的学习生活。学习机的形式不再局限于英语学习的
大坝边坡安全监测在大中型水坝施工期间是一项非常重要的安全监测项目之一。本文研制了一种基于振弦式传感器的大坝边坡安全监测系统,该系统可以对大坝高边坡的渗压、渗流和
随着实时嵌入式系统应用的日益复杂化,系统可能要处理多个实时任务,同时各个任务之间也可能有多种信息传递。如果仍采用原来的程序设计方法将存在两个问题:一是中断可能得不到及
模式识别作为信息科学和人工智能的重要组成部分,在现实生活中得到了广泛的应用。在模式识别领域中,支持向量机能非常成功地处理回归问题和模式识别等问题,本文研究的主要内
作为一种绿色能源,风能近年来得到广泛关注,其产业发展迅猛。目前获得广泛应用的并网型风力发电系统多采用异步发电机,效率不高。并且由于必须采用升速齿轮箱,系统的可靠性不高。采用永磁同步发电机的直驱式风力发电系统,因为其具有效率高、制造方便、控制效果好的优点,逐渐成为人们研究的焦点.本文主要针对一种采用永磁直驱发电机的新型风力发电系统进行仿真研究。风电场是典型的分布式发电系统,在传统的风电场中,各台风力
随着人类对海洋资源开发和探索的范围越来越大,由于传统的定位方法无论从经济上还是技术上都无法适应新的作业环境的需求,人们对深海作业的浮式生产系统包括船舶半潜平台的系泊
当前社会环境下人口密集,商业等资源高度集中,火灾风险随之升高,火灾扑救难度也不断增大,消防调度工作面临着巨大挑战。现行火灾扑救调度方法过于依赖人工决策,过程繁杂而难以兼顾