《蒙汉双语对齐语料库》的实验性研究与实现

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:rylove006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,双语对齐语料库的重要性日益加强,它在机器翻译、词典编纂、信息检索、翻译知识的获取、词义排歧等领域有着重要的研究和应用价值。双语语料库的研究工作主要集中在语料的构建、对齐和标注等方面。在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语对齐语料库的研究国内外都相对较少,尤其是蒙语语料库与其它语种语料库的对齐研究就更少。本文的工作主要集中在蒙汉双语对齐语料库词性标注、词汇对齐及句法分析的研究上,主要包括以下部分:1.词性标注。蒙古文的附加成分比较多,比如(做)有(主动态), (被动态), (使动态), (互动态),(同动态)等多种形态变化。本语料进行标注时不仅确定了词性标记集,而且还确定了体现这些形态变化的标记集。2.词汇对齐。词汇对齐是发现与源语言词汇具有最高语义相似度的目标语。蒙文词汇和汉文词汇有许多特殊对应关系,如:有些汉语动词短语对应蒙语动词;有些蒙语动词短语对应汉语动词;蒙语的数词很多情况下对应汉语的数量词;还有空对齐等情况。本文中较详细地分析了蒙文句子和汉文句子语义对应关系,进行了特征标记,并实现了双语句子、词汇、句法结构等不同类型的对齐信息的检索工具。3.句法分析。句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的。本文使用了自顶向下的句法分析方法分析了双语实验语料,并利用广义表方法生成了蒙古文和汉文句子各自的句法树。本文最终建立了一个蒙汉双语语料库实验系统,该系统的语料中包含了词汇对齐、词性、句子成分和句法结构等标注信息,并具有对齐信息检索功能和语料库维护功能。通过对典型语料实验实例的分析,表明该系统对机器翻译以及翻译知识的自动获取研究具有重要意义。
其他文献
视频序列去噪问题近几十年来一直受到广泛关注和探讨。在实时视频监控、实时流媒体服务、移动可视电话等应用场合,为了兼顾图像质量和实时性,必须寻找相对简单高效的与编码器
反馈顶点集(Feedback Vertex Set,简称FVS)问题是经典的NP难问题,在电路测试、操作系统解死锁、网络设计、分析工艺流程、生物计算等领域都有重要应用。人们提出了一系列解决
无线Mesh网络(WMN)是快速发展的新型网络技术并支持宽带高速多媒体业务服务,因此近年来被高度重视。随着未来无线分布技术和无线分布网络的发展,无线Mesh网络技术将可能成为无
随着计算机技术和网络的发展,网络已日益成为生活中不可或缺的工具,在给用户带来方便的同时也使得维护网络中主机的安全变得更加困难,从近期网络安全事件对网络造成的巨大破坏中
人脸姿态估计一直是计算机视觉领域的一项重要研究课题,具有广泛的应用价值,在人机交互,虚拟现实,智能监控等领域都有广泛的应用。特别是对于多姿态人脸识别研究来说,具有重要的研
为了解决电力企业信息化中存在的“重用难”、“集成难”等问题,本文把面向服务架构SOA应用到供电企业运营支撑系统中,以实现功能重用和数据共享。提出了一个基于SOA架构的供电
随着软件规模和复杂性的不断提高,软件危机愈加明显暴露出来。ERP系统作为先进的企业资源规划软件其市场前景喜人,但是开发上存在周期长、稳定性较难保证、资金投入大等问题。
LiveCD是一种可引导的光盘,用它能直接启动存储在其上的操作系统。引导过程中,计算机把光盘上的文件压缩包释放到计算机内存中来运行,并不需要硬盘。退出LiveCD并重新启动系统后
计算机网络技术与图形学的发展,使三维模型在网络上的应用得以实现,随之而来的版权保护问题也日益突出.数字水印技术作为版权保护的有效手段逐渐成为研究热点。以往的水印技
数据网格致力于计算密集型和数据密集型的应用问题。这些应用通常包含非常大的数据集合,且其用户和资源广泛地分布在各地。此外,数据网格还致力于解决数据存储、数据管理、网络