构建托忒文语料库及其相关技术研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:you3880066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建托忒文语料库、并研发相关应用程序是建设《蒙古语语言资源平台》工作中的重要部分,也是将托忒文文献数字化,实现资源共享的基础。目前托忒文文献数字化工作中亟待解决的问题是改进和完善它的编码系统。此项研究在已有的托忒文编码基础上,深层次,全面地反映了托忒文中应有的编码体系。目前,搜集和整理的托忒文语料库包括以下两个方面的内容:一是以英雄诗《江格尔》为例的新托忒文语料库;二是以文献为例的经典托忒文语料库。该语料库中对比不同时期的托忒文特征,并概括了已有的托忒文编码体系中应增加的《名义字符》、《变形显现字符》、《强制性合体字》和《非强制性合体字》。该论文内容概括为以下几个方面:导论中主要阐述了研究对象、以往的研究概况、选题依据、选题意义和目的、研究理论方法,资料的选择范围以及论文结构。其中以往的研究内容涉及到三个方面:(1)初学托忒文字母抄本;(2)托忒文研究成果;(3)在信息化领域中使用托忒文的趋势。第一章,详细地介绍了托忒文编码体系。(1)探讨了以往的托忒文编码体系中应增加的字符和标点符号:国内主要研发单位是内蒙古蒙科立软件有限责任公司、北京北大方正电子有限公司、潍坊北大青鸟华光照排有限公司和内蒙古大学计算机学院;国外主要开发国家是蒙古和日本。(2)介绍了研发《托忒文编码国家标准》过程:这里系统地列出了已有的方正托忒文编码体系中应增加的“名义字符”、“变形显现字符”、“强制性合体字”、“非强制性合体字”、“数字”、“标点符号”和“控制符”。(3)阐述了有关《托忒文编码国家标准的系统实现问题:托忒文名义字符到变形显现字符的转换规则。(4)阐述了关于托忒文中使用控制符的规则。第二章,重点介绍了托忒文文献语料库概况。首先介绍了托忒文文献总论、收藏地区、统计目录和搜集工作的进展情况。其次介绍了托忒文拉丁转写方案的依据和使用目的。第三,介绍了托忒文文献语料库相关工作。(1)构建托忒文文献信息数据库;(2)托忒文文献语料库由文本库(拉丁转写)和图片库(扫描文件)组成。最后,简单介绍了中世纪文献语料库“回鹘式蒙古文文献语料库”、“八思巴文文献语料库”和“托忒文文献语料库”之间如何连接问题。这里提到了两种方法的优点和缺点。一是以字母为单位,制定三种文字共用拉丁转写方案来实现;二是以词语为单位,研制三种文字词语对照电子词典来实现。第三章,简单介绍了托忒文文献语料库应用程序的开发步骤。针对今天互联网技术的普及和移动终端的广泛使用主流,研发该应用程序是采用了跨平台、开源代码和广泛使用的PHP+MySQL+Apache组合。在此基础上,详细介绍了数据库设计方案、程序流程图和应用界面。托忒文文献查询程序的主要功能是从数据库中查询单词,词语等元素,并获得的结果是文本块和图片。第四章,详细介绍了以新托忒文为例的“江格尔语料库”的加工和它的应用方法。论文中以借鉴信息抽取技术为指导,构建了针对“江格尔语料库”的命名实体字典。此外,为了扩充“江格尔语料库”的规模,初步构建了托忒文、传统蒙古文和西里尔文的词语对照电子词典,目前已收录2,526条词条。最后,介绍了“江格尔语料库”应用程序的设计和实现。
其他文献
本文提出了一种面向光盘文档库的数据组织方案(简称CBCD),并在此基础上实现了光盘文档库的生成系统和浏览系统.文档库生成系统以Internet上丰富的置标文档如SGML、HTML、XML
研究了一种改进的随机振动系统的频谱均衡自调整算法,通过对随机振动对数功率谱模型的分析,提出了其离散小波变换的系数噪声可近似为高斯分布,设计了与尺度相关的阈值非线性
对学汉语的外国留学生来说,汉语中疑问词的非疑问用法是学习汉语的一个难点。现代汉语否定词与疑问词结合的情况很多,虽然学界一直以来对这两个词类的研究和关注不少,但是对
近日消息,北斗星通子公司和芯星通有关负责人向大智慧通讯社表示,目前和芯星通正在研发北斗第三代芯片,量产时间尚不能对外披露。
提高随班就读的教育质量关键是提高随班就读课堂教学的质量.要提高随班就读课堂教学的质量,必须规范课堂教学的要求,突出随班就读课堂教学要求的双重性,即指导教师在教学中,
本文在山西晋语的大背景下,以晋语上党片长治方言的体貌现象为研究对象,在实地调查和借鉴前贤研究成果的基础上,对长治方言的体貌助词及相关助词进行共时和历时考察。从共时
汉语语义分析,特别是大规模真实文本的语义分析,一直是当前自然语言处理的难点。传统依存分析法等标注方法在处理汉语特殊句型和特殊语言现象如主谓谓语句、连动句等句型时遇