日文片假名自动翻译技术的研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 0次 | 上传用户:fmwksf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和国际技术交流的深入,大量新的科技术语会被引入到另外一种语言中使用,这些术语通常不是被另外创造新词表示。日语也从别的语种(特别是英语)中引入词语,并且利用音标字符片假名来表示引入的外来语。由于双语词典仅能覆盖有限的片假名,基于词典的机器翻译系统不可能翻译所有的片假名,因此未登陆片假名的翻译问题也是机器翻译需要解决的关键问题。本文利用统计机器翻译方法实现了片假名的自动翻译,从片假名短语的分词,片假名的翻译,双向翻译结果的融合,到翻译结果短语的获取以及翻译结果的自动评测,实现了完整的片假名短语翻译流程。其主要工作如下:第一,与以往基于词典的分词方法不同,本文采用机器学习的方法进行片假名短语分词。本文将片假名分词问题转化为序列标注问题,取前后三个片假名字符范围内的上下文作为特征,然后引入条件随机场来进行片假名分词,实验结果表明,基于条件随机场的片假名分词方法取得了较高的分词准确率。第二,采用基于短语的统计机器翻译方法进行片假名的翻译,并在基于短语的机器翻译方法的基础上提出了一种双向融合的策略进行片假名翻译。该方法将片假名利用日英系统译出英语单词候选,然后将英语单词候选利用英日系统再次翻译,并将两次翻译结果进行融合得到最终的翻译结果。实验表明,基于双向融合的翻译方法比基于短语的日英翻译方法的结果有明显提高,取得了较为理想的效果。第三,对于片假名短语的英语短语结果的获取,本文使用了双向融合打分值和短语语言模型两个特征来指导英语短语结果的获取,然后采用Viterbi算法进行解码,最后实现了一个完整的片假名短语自动翻译系统。本文利用翻译准确率和国际上通用的机器翻译自动评测方法对片假名短语自动翻译系统的翻译结果进行了评测,评测结果证明,本文提出的方法可以有效的解决片假名的翻译问题。
其他文献
燃煤锅炉炉膛火焰温度场的测量与重建一直是一个难于解决的问题。目前还没有建立非常有效的大型锅炉炉膛火焰温度场测量手段。探讨了声学法燃煤锅炉炉膛火焰温度场的检测技术
伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联
曲面求交和曲面上曲线的等距是CAD/CAM中的重要操作,被广泛应用于曲面裁剪、数控加工、实体造型等领域。在计算机可视化计算领域,除了采用孔斯曲面片、B样条曲面片或NURBS曲
合成孔径雷达技术发展到今日不仅应用在军事上,而且在民用方面得到了广泛的应用,如灾害监测、环境监测、海洋冰川监测、地形测绘、资源勘探等,表现出了巨大的应用价值。因此,SAR
随着计算机技术的飞速发展尤其是互联网的广泛应用,信息化也成为现代社会发展的主要推动形式。目前,考试是各行业普遍采用的一种测试手段,为及时适应社会发展的需要,在线考试
近年来,随着信息技术的迅猛发展,信息资源极大丰富,如何在动态的P2P网络环境中对海量数据进行查找引起了很大的关注。Top-k查询就是从数量巨大的信息中选择最符合查询条件的k
随着计算机和网络技术的飞速发展,数据已呈爆炸式的增长,软件错误、硬件故障、人为误操作、病毒以及自然灾害等原因常引起数据的丢失,而数据备份技术的出现为防止数据丢失提
在大数据和云计算得到广泛应用的今天,传统的IP网络架构成为了制约整个网络性能发展的重要因素,近几年,对于改变IP网络网络僵化问题的研究取得了很大的进展。SDN被业界专家认
近年来,移动计算设备的计算能力和存储能力不断提高。与此同时,移动设备上的无线通信技术也取得了快速的发展。这些设备间通过短距离通信协议互联形成了一种新型的网络--移动
随着互联网信息的飞速增长,越来越多的人选择搜索引擎作为网络信息获取的主要手段。然而互联网上的信息浩如烟海,内容庞大,如何准确、全面的获取特定领域的网络信息成为搜索