论文部分内容阅读
藏族是我国人口众多的少数民族之一,在藏语使用地区也是多民族、多语种、多种宗教共同存在。随着时代的发展,各民族间的交往日益频繁。为了促进汉藏语言交往使用,语言文字的交流需要更简便,更加规范。随着少数民族地区的开放的程度不断提高,我国各族人民在社会交往中,除了使用本民族语言,汉语即我国的通用语言文字——汉语普通话,也迅速普及。受汉语言的影响,少不了将汉文词语引入到藏文中,很多专有名词像人名、地名等都不会意译,而是音译过来使用。例如像新闻媒体等进行藏语播报的时候,就存在将国家领导人的名字进行音译。但是由于目前没有统一的规范标准,像同一名字出现在不同地方,可能就有不同的译法。因此,有效、统一、规范化的汉藏音译实现,在跨语言检索等信息处理中起到重要作用。根据汉文构字、汉语拼音以及藏文字符的用字规律等特点,本文总结提出了基于规则的汉藏音译方法,将音译过程所需的条件,归纳为一条条的规则,在此基础上设计算法,实现了汉藏之间的音译,取得了很好的效果。 首先,根据汉语拼音,以及拼音读音与藏文字符的读音相似关系,制定了汉语拼音与藏文字符相应的对照表,该表囊括了目前汉字的所有常用拼音。 其次,汉语拼音和藏文字符的对照表是以字作为基本的处理单元,但由于很多词或词组存在现有译法,本文还建立了一个特殊词表,该表列举了很多沿袭的通用译法,即人们的习惯译法的词或者词组。 再次,汉字存在多音字,但如果只是声调的不同,在音译为藏语是没有差别的;如果拼音不同,则会译为不同的藏文。所以如果待译汉文出现多音字,需要根据语境选择准确的拼音,根据上下文来选取合适的藏文,针对此,建立了一个动态多音字词库,该词库包括一些多音字构成的常用的词或者词组和其相应的拼音。 最后,本文采用基于规则的方法实现汉藏音译算法,该算法中,设定了特殊词优先级最高,多音字动态词次之,最后根据汉语拼音与藏文字符对照表单个字处理汉文。系统测试证明,该算法实现简单,准确率高。