【摘 要】
:
命名实体翻译对的自动抽取研究对自动文摘、机器翻译和跨语言信息检索等意义重大。传统方法往往建立在大规模平行语料库或可比语料库基础上,由于双语语料库资源相对匮乏导致
论文部分内容阅读
命名实体翻译对的自动抽取研究对自动文摘、机器翻译和跨语言信息检索等意义重大。传统方法往往建立在大规模平行语料库或可比语料库基础上,由于双语语料库资源相对匮乏导致研究成果的实用性受到约束。本文总结了该领域的研究现状,并结合汉语和日语的特点,提出了一种新的基于归纳学习法的单语语料库命名实体翻译对自动抽取方法。该方法使用汉语和日语汉字对照表计算命名实体实例间的相似度,使用归纳学习法,抽取相似度较高的汉语和日命名实体实例间的共同部分和差异部分,来获取命名实体的局部翻译规则,再通过反馈处理更新汉日命名实体对的相似度和规则集合。实验结果显示,提出方法简单有效,克服了传统方法对双语资源具有依赖性这一缺点,可有效利用单语语料库构筑大规模汉日命名实体翻译词典。相比与其他的方法,本文结合汉语和日语的特点,提出了一种基于归纳学习法的单语语料库汉日命名实体翻译对自动抽取方法。使用了弱相关的双语文本、极少的额外知识(中日汉字对照表)来抽取命名实体翻译等价对,有效的减少了构筑语料的花费和对额外知识的依赖。此外在数据量不足的情况下,面对纯假名命名实体时有很大可能无法抽取出局部翻译规则。我们提出了一种基于传统统计机器翻译的音译方法,有效改善了假名上的等价对抽取效果。我们未来的工作主要将关注如何从海量、冗余、异构、不规范、含有大量噪声的网页中抽取出可靠的翻译对应。
其他文献
随着经济和物质生活水平的不断提升,中国人口城市化进入高速发展阶段,人口老龄化问题也日渐突出。最新人口普查显示,中国老年人口已接近3亿,相关的医疗监护随之成为社会关注的热
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿,是数据库知识发现中的一个步骤。数据挖掘与统计学、机器
伴随着世界互联网的发展,如合作网、社交网络以及学术引用网络,可以看到复杂网络在我们的日常生活中无处不在。随着人们对复杂网络的进一步研究,逐渐发现复杂网络具有许多重要的
随着信息技术和人工智能的快速发展,计算机逐渐具备模拟人的思维和智慧的能力,计算机视觉成为了一个热门的研究课题。近年来,人脸检测、人脸识别、特征提取、人脸特征点跟踪
关联规则挖掘主要是研究数据属性之间的关联关系,挖掘出的规则在企业决策、个性化推荐、产品设计上都有很高的价值。目前关联规则挖掘领域使用最多的是Apriori算法和遗传算法
感应加热作为一种工业加热方法,具有能流密度大、加热速度快、热效率高、节约能源、不污染环境等一系列优点,被广泛应用于轧辊表面淬火、棒料透热、板坯回火等工业生产领域。中
摘要:随着计算机和互联网技术的快速发展,使得云计算技术应运而生。由于海量数据已经不能够存储在单一的计算机上,传统的串行处理需要大量的时间花销,因此如何对海量数据进行
基于特征的参数化建模是当今最主流的CAD建模方式,通过特征能够很好的反映产品的功能语义,实现产品生命周期不同阶段的信息共享。直接建模则是近年来出现的一种新的建模方法,它
图像分割是图像处理分析中的关键步骤,是将原始图像划分为多个不同区域并从中找出人们感兴趣的目标的过程。目前已提出了大量不同类型的分割算法,但也由于缺乏普遍适用的分割
三支决策理论起初是为了解释粗糙集三个区域而提出。具体点说,粗糙集的正域、边界域和负域可以分别看成在一个三支决策中的接受区域、不承诺区域和拒绝区域。三支决策理论比