论文部分内容阅读
随着科学技术的迅猛发展,计算机已普及到各行各业。计算机从数据处理、信息处理发展到知识处理,而在知识处理阶段,则需要更深、更广的处理自然语言文法规则。藏文句法分析是藏文知识处理领域内的一个重要课题,它的发展将会更好、更快的带动其它语言学的发展。藏文作为自然语言的一种,具有自然语言所共有的最本质的特征,因此藏文句法分析可以借鉴和吸收汉文或英文的相关技术。同时,由于藏文的特殊性,决定了藏文句法分析不可照搬现成的汉文和英文的句法分析算法,而要从藏文自身的特点出发,以藏文文法理论为指导,研究并开发适合藏文文法的句法分析算法。 本研究主要内容包括:⑴藏文词法分析。藏文词法分析分为藏文分词和藏文词性标注。藏文分词中本课题以最大概率藏文分词法为核心算法,结合藏文自身的特点,研究并实现了藏文紧缩词的还原算法。藏文词性标注以HMM作为藏文词性标注模型,用Viterbi来实现藏文词性标注算法。⑵藏文句法分析。探讨并研究了藏文的句型定义,分类出十八种藏文句型类别。结合这十八种藏文的句型类别,设计了一套基于上下文无关文法的藏文语法规则库。研究了基于藏文格助词和线图相结合的藏文句法分析算法。通过对小规模藏文文本进行测试,验证了本文所提出的藏文词法分析与藏文句法分析算法是可行性的,是有效的。