论文部分内容阅读
构建托忒文语料库、并研发相关应用程序是建设《蒙古语语言资源平台》工作中的重要部分,也是将托忒文文献数字化,实现资源共享的基础。目前托忒文文献数字化工作中亟待解决的问题是改进和完善它的编码系统。此项研究在已有的托忒文编码基础上,深层次,全面地反映了托忒文中应有的编码体系。目前,搜集和整理的托忒文语料库包括以下两个方面的内容:一是以英雄诗《江格尔》为例的新托忒文语料库;二是以文献为例的经典托忒文语料库。该语料库中对比不同时期的托忒文特征,并概括了已有的托忒文编码体系中应增加的《名义字符》、《变形显现字符》、《强制性合体字》和《非强制性合体字》。该论文内容概括为以下几个方面:导论中主要阐述了研究对象、以往的研究概况、选题依据、选题意义和目的、研究理论方法,资料的选择范围以及论文结构。其中以往的研究内容涉及到三个方面:(1)初学托忒文字母抄本;(2)托忒文研究成果;(3)在信息化领域中使用托忒文的趋势。第一章,详细地介绍了托忒文编码体系。(1)探讨了以往的托忒文编码体系中应增加的字符和标点符号:国内主要研发单位是内蒙古蒙科立软件有限责任公司、北京北大方正电子有限公司、潍坊北大青鸟华光照排有限公司和内蒙古大学计算机学院;国外主要开发国家是蒙古和日本。(2)介绍了研发《托忒文编码国家标准》过程:这里系统地列出了已有的方正托忒文编码体系中应增加的“名义字符”、“变形显现字符”、“强制性合体字”、“非强制性合体字”、“数字”、“标点符号”和“控制符”。(3)阐述了有关《托忒文编码国家标准的系统实现问题:托忒文名义字符到变形显现字符的转换规则。(4)阐述了关于托忒文中使用控制符的规则。第二章,重点介绍了托忒文文献语料库概况。首先介绍了托忒文文献总论、收藏地区、统计目录和搜集工作的进展情况。其次介绍了托忒文拉丁转写方案的依据和使用目的。第三,介绍了托忒文文献语料库相关工作。(1)构建托忒文文献信息数据库;(2)托忒文文献语料库由文本库(拉丁转写)和图片库(扫描文件)组成。最后,简单介绍了中世纪文献语料库“回鹘式蒙古文文献语料库”、“八思巴文文献语料库”和“托忒文文献语料库”之间如何连接问题。这里提到了两种方法的优点和缺点。一是以字母为单位,制定三种文字共用拉丁转写方案来实现;二是以词语为单位,研制三种文字词语对照电子词典来实现。第三章,简单介绍了托忒文文献语料库应用程序的开发步骤。针对今天互联网技术的普及和移动终端的广泛使用主流,研发该应用程序是采用了跨平台、开源代码和广泛使用的PHP+MySQL+Apache组合。在此基础上,详细介绍了数据库设计方案、程序流程图和应用界面。托忒文文献查询程序的主要功能是从数据库中查询单词,词语等元素,并获得的结果是文本块和图片。第四章,详细介绍了以新托忒文为例的“江格尔语料库”的加工和它的应用方法。论文中以借鉴信息抽取技术为指导,构建了针对“江格尔语料库”的命名实体字典。此外,为了扩充“江格尔语料库”的规模,初步构建了托忒文、传统蒙古文和西里尔文的词语对照电子词典,目前已收录2,526条词条。最后,介绍了“江格尔语料库”应用程序的设计和实现。