藏文自动分词技术方法研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:WanNianDog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文分词是藏文信息处理中一项不可缺少的基础性工作。从文本的输入系统〔如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要基础之一。众所周知,英文以词为单位,以空格隔开。计算机可以容易地理解英文单词。而藏文句子中,词与词之间没有明显的分隔符(如空格)。藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。进而提出了藏文自动分词的基础理论知识及分词技术方法。
其他文献
本文主要简述口译关联理论,并在其框架下探讨2010年世博相关口译策略。众所周知,中国成功地获得了2010年世界博览会的主办权,盛会于2010年5月1日至10月31日在上海举行。此次
语用学作为语言学研究的一个极其重要的分支,对语言的使用及语境中的语言交际行为进行研究。跨文化语用学则研究在使用第二语言进行跨文化言语交际的过程中所出现的种种语用
《第五个孩子》与其续集《浮世畸零人》是英国多元化女性作家多丽丝·莱辛创作后期的后现代社会问题小说。本文作者认为,这两部社会问题小说可一同视为莱辛回归现实主义的反成长小说。这部反成长小说不是简单的回归现实主义传统,而是继承现实主义关注世道人心的传统,并以符合时代精神的种种叙事手法赋予现实主义新生。通过分析这两部小说的情节结构以及人物塑造,本文作者阐明这两部小说的体裁为成长小说的变体—反成长小说。并且
在党建过程中政治思想工作时其中最重要的一部分。同时思想政治工作的良好进展可以保证企业其他管理工作的顺利进行。企业要想取得持续健康快速发展,就必须重视和加强企业政
在当前社会高速发展,工作生活异常紧张的情况下,职工的心理健康问题应该受到企业的关心和重视。企业工会如何发挥应有的作用,关心关注职工心理健康,通过有效手段促进职工心理
目前在学校最流行的词就是新课程改革,每位教师都挂在嘴边,但是什么是新课程改革?为什么要进行新课程改革?中学美术教育对学生个体发展和社会又产生着何种影响,这些问题值得
兴宁,作为梅州市的次中心城市,其经济、文化、语言在梅州地区有着举足轻重的地位。兴宁俗语,流传久远,使用频繁,具有非常高的语言价值、历史价值、民俗价值。本研究收集了515
现代汉语中,“大X大Y”格式是介于固定短语与非固定短语之间的类固定短语,是在“大……大……”框架中插入词性、形式相同或不同的词语构成的。本文主要讨论“大X大Y”格式及
<正>建设丝绸之路经济带和21世纪海上丝绸之路,是中央实施新一轮对外开放的重大举措。"一带一路"是指"丝绸之路经济带"和"21世纪海上丝绸之路",充分依靠我国与有关国家既有的
汉日同形词,客观而大量地存在于汉语与日语之中,既是语言学习和教学过程中无法回避的问题,也是词汇教学和研究的重点,值得我们深入、细致地研究和探讨。偏误分析是对外汉语教