面向汉维机器翻译的双语对齐语料库的构建

来源 :第十届全国少数民族语言文字信息处理学术研讨会 | 被引量 : 0次 | 上传用户:whiterain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一项重要的基础资源,双语平行语料库在人工智能领域的研究起着举足轻重的作用.我国涉及少数民族语言的双语语料库的探索工作相对较少,本文介绍了汉维双语语料库的建立过程,并对语料的收集整理和组织做了初步的设想.
其他文献
在人类语言中存在着多种的书写系统(WritingSystem),这些书写系统大致可以分为两类:一类是水平书写,例如英语、汉语等都属于水平书写系统;另一类是垂直书写,例如古汉语、蒙古
会议
现代维吾尔语信息处理技术研究工作自20世纪90年代初开始至今,开展了基础理论研究和应用基础等方面的研究工作.现代维吾尔语语料库加工处理工作2002年开始、制定了标注标准、
会议
本文针对语言信息处理中建设藏语语料库及藏文信息词典库需要,根据藏文的语法功能及特点,借鉴汉语信息词典建设研究的成功经验,用数学分类的思想--每个个体属于而且只属于其
本文是以大型藏文语料库管理系统的开发为背景,首先说明了以Oracle为后台数据库服务器的大型藏文语料数据库管理系统建立安全性访问控制的必要性,然后详细讨论了基于C/S和B/S
本文基于蒙古文文本初步统计出了54个标点符号.在此基础上,从信息处理角度对其进行归类,并进一步探索了标点符号标记的确定和标点符号分库属性字段的设置.
本文介绍了我们通过界面设计、Unicode文本处理和数据库连接,设计完成面向各个阶层的使用方便、实用,基于汉、维电子词典的辅助翻译软件.
词法形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块.传统蒙古语语法学在这方面取得了一定的成果.然而,面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上
会议
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题.一个重要的原因是从大规模的语料库中能够提取出所需要的知识.而语料文本的
鉴于现代蒙古语语料库加工的新需要,内蒙古大学蒙古学学院和北京大学计算语言学研究所合作开发了新一代蒙古语词语自动切分标注系统.本文在对新旧系统进行比较的基础上,着重
(笔试部分答题时间:90分钟)第一部分听力(因听力部分不方便实施,故此处30题听力试题改成听力指导。)英语PETS一级考试的听力部分共分为三节,每节10题,共计20分钟,考查同学们