面向奥运新闻机器翻译的中文分词研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:kf3567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向奥运新闻机器翻译的中文分词研究与实现随着信息时代的到来,“信息爆炸”成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性。不同语言之间的翻译工作越来越迫切,并且工作量也越来越大。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一。 然而机器翻译中的中文分词技术是急待解决的问题。本文主要是对面向奥运新闻的机器翻译项目中的中文分词任务,结合实际的问题提出一套有效的解决方案。在本文自行开发的大规模中文分词标注语料和已有词典知识的基础上,构造了中文分词词典,在这个过程中提出了一种有效的解决歧义问题的方法,同时使用统计和规则相结合的词性标注技术为机器翻译系统提供了实用的中文分词标注结果。 本文使用了错误驱动的学习框架,针对项目中的汉语新闻语料,采用基于转换的错误驱动方法抽取的歧义片段转换规则库,自行设计和实现了学习中的转换工具。针对实际系统中的时效要求,采用了基于词典切分的分词算法,在词性标注的过程中本文使用了隐马尔可夫模型结合后处理规则的方法。实验结果证明该方法对项目中解决歧义切分问题是非常有效的。在此基础上设计实现的分词标注系统,成功应用于面向奥运新闻的汉日机器翻译的资源建设和翻译系统的预处理阶段。 本文构建了面向奥运新闻汉语真实语料的五万旬分词标注语料,该语料具有较好的一致性。成功构建了分词基本词典和专业词典,收集了上万条歧义片段转换规则,在资源建设和系统设计上满足了项目需求。 结合该项目实现的分词系统总结了实际应用中的中文语言现象,构建了个性规则。并且为该机器翻译系统中的翻译记忆层、词表层和模板层处理提供了相应的接口实现。
其他文献
随着交通事业和计算机技术的迅速发展,传统的自然区划已不能够全面的、正确的认识地理环境与公路工程的关系,难以给予明确的指导方向。本课题在此背景下提出,借助自然区划的
随着互联网的发展及广泛应用,电子邮件系统已成为人们日常联络通讯的主要工具。当前电子邮件系统面临着机密性泄漏、信息欺骗、病毒侵扰、垃圾邮件等诸多安全问题的困扰,因此关
随着Internet的广泛应用,网络教育越来越受到人们的重视。由于网络教育中教师和学生在空间上是分离的,沟通与交流就显得尤为重要。因此,答疑系统成为网络教学中的重要组成部分。
面对越来越多的数据,如何利用这些海量数据,并从中提取出对企业的生产经营活动有用的信息,数据仓库技术应运而生。相对于钢铁企业生产统计来说,包括炼钢工序、热轧工序、轨梁工序
高维数据索引机制是医学图象库基于内容检索的重要课题。作者在“国家数字化医学影像设备工程技术研究中心”的资助下,从事此方面的研究工作,取得了以下进展: 对数据分布的精
图像识别在军事国防以及民用领域的作用日益显著。近些年,从遥感和航拍图像中实现目标的自动识别取得了长足的发展,但目前仍没有一种可以普遍适用的方法。这其中的困难不仅体现
传统工业控制通常以工控机为硬件平台来构建监控系统,这种模式的监控系统存在成本高、体积大、安装及后期维护复杂等缺点。随着微处理器运算、处理能力日益强大,同时随着嵌入式
信息技术的快速发展为网络教学提供了广阔的前景。网络教学作为一种新的教学方法,改变了传统教学方式,提高了教学效果及学生参与教学活动的积极性。与传统的教学模式相比,网络教
在自然语言理解领域,词义消歧(Word Sense Disambiguation-WSD)是基础研究课题,也是重点和难点之一。作者在统计的框架下,多方面地考察词义消歧问题,得到了一些较好的结论,并在此
文件同步分为三个阶段。一是更新检测阶段,检测和发现文件的变化。二是同步决策阶段,决定如何进行文件同步,获得文件同步的具体步骤。三是同步实施阶段,进行具体的数据传输,完成文