【摘 要】
:
在自然语言处理的诸多领域的研究中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐的语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可
论文部分内容阅读
在自然语言处理的诸多领域的研究中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐的语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等。
对于基于实例的机器翻译而言,单词级对齐的双语语料库是不可或缺的资源。可以说,单词级对齐的双语语料库的质量和数量直接决定了基于实例的机器翻译系统的性能。由于人工构建单词级对齐的双语语料库的代价十分高昂,本文着眼于单词级对齐的双语语料库的自动构建,探讨汉日双语自动词对齐技术。
本文的主要贡献在于:
(1)综述、分析了当前主要词对齐方法及其不足,提出了层进式汉日词对齐模型。该模型层次利用汉语单词和日语单词之间的联系,在保证高准确率的同时,词对齐结果的召回率逐步提高;
(2)分析了词对齐任务针对双语字典解释性释义的不适应性、针对分词粒度差异的不适应性,提出了相应的适应性改良方案。实验表明,作者对上述若干不适应性的分析依据充分,提出的改良方法效果非常明显;
(3)针对对齐冲突问题,我们提出了基于锚点的冲突消解方法和基于Chunk对齐的冲突消解方法,分别利用锚点对齐信息和Chunk边界进行词对齐冲突消解;
(4)针对助词的混淆对齐问题,我们提出了基于锚点的助词对齐模型,获得了很高的准确率。
(5)利用Chunk对齐可以使词对齐局部化这一性质,我们提出了基于Chunk对齐的局部词对齐调整策略。
其他文献
随着机电产品功能要求的日益复杂,机电系统的设计也变得越来越有挑战性。在整个设计过程中,模型已经取代文档成为了系统工程问题求解的媒介,模型验证成为了设计过程中的重要一步。模型验证可以帮助发现设计错误,降低开发成本,提高开发效率,并且提高系统可靠性。模型验证贯穿在整个设计过程中,和设计同步进行。先设计再验证的方法忽视了早期设计阶段的验证,直到设计后期才能发现设计缺陷。和这种方式相比,验证与设计同步可以
篇章或对话中大量出现的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加突出,这也给计算机理解自然语言增加了难度。指代消解一直是自然语言理解中的核心问题
随着互联网技术的发展,尤其是Web2.0技术的成熟,我们面临着越来越严重的信息过载问题,推荐系统技术是为了解决这个问题应运而生的。协同过滤推荐算法是推荐系统应用最为广泛
随着数码相机,智能手机等手持设备的兴起,照片的拍摄和分享变得日益便捷,逐渐成为我们生活中一项重要的娱乐活动。由于单个相机的视角有限,因此许多拍照程序都提供一种全景拍
Internet发展到今天,即时通信类软件得到广泛得应用。目前的即时通信领域中一个很重要的协议是可扩展的消息与出席信息协议(eXtensible Messagingand Presence Protocol,Jabber
语义网技术近年来越来越受到大型互联网公司、机构以及学术研究者的重视,随着语义网构建技术的发展,越来越多的语义网知识库涌现出来,并不断地在增长。如何对这些具有语义信息的
信息安全技术在近年内迅速发展,已经初步形成了一套完整的Internet安全解决方案。访问控制对系统资源的安全性至关重要。PKI系统通过方便灵活的密钥和证书管理方式,为用户建
近年来的互联网被各种各样的恶意代码充斥其中,最让用户深受其害的当属网络蠕虫。虽然安全专家们为建立一个能对网络蠕虫进行检测、抑制的专用系统付出了大量的努力,但已有的蠕
随着无线移动网络的普及,特别是3G的大规模商用,为无线移动多媒体的应用提供了很大的契机,特别是无线音频、视频流的服务将会得到很大的改善。但是由于移动网络的带宽波动、误码
随着计算机技术、半导体技术、微电子技术技术的不断融合,嵌入式系统的应用得到了迅猛发展。本文以嵌入式系统开发为背景,研究基于ARM和μC/OS-Ⅱ的嵌入式系统及其在加密解密