论文部分内容阅读
要让计算机来识别藏文短语,则首要的条件是人类先要找出藏文短语的语法规则。凭借着这些规则从真实语料当中找到并提取和分析藏文短语,这样才能计算机识别藏文短语。藏族经典民间文学《说不完的故事》中的序言及十一篇短片故事集作为本文的语料,采用多拉教授的藏文词性标记集为标注依据,以藏语语法对短语的理论前提选定藏文句子并应用直接成分法对语料中的藏文短语进行人工括号标注。这些序言及其十一篇短片故事集中共有7777个藏文短语分为九个类型,分别为名词短语、动词短语、形容词短语、数量短语、副词性短语、时间性短语、特殊短语、谚语和习语。这些藏文短语,从计量、模型、内部结构、外部结构、句法成分,语义角色等六个方面进行分析,最终建立了藏文短语的信息库。本信息库中的1657个名词短语,按结构模型分为六种结构模型;按内部结构分为主格结构、主虚结构、宾格结构、同位结构、并列结构、中定结构和复指结构;按外部结构分为名词性短语和准名词性短语,在句子里充当主语和宾语。其中包含的4270个动词短语按结构模型分为五种结构模型;按内部结构分为状中结构、宾动结构、主谓结构、并列结构和中补结构;按外部结构分为动词性短语和准动词性短语,在句子里充当谓语。包含的347个形容词短语按结构模型分为八种结构模型;按内部结构分为状中结构、宾动结构、主谓结构、并列结构、中补结构和中定结构;按外部结构分为动词性短语、形容词性短语和名词性短语在句子可以充当主语、谓语和宾语。包含的656个数量短语按结构模型分为六种结构模型;按内部结构分为并列结构和中定结构;按外部结构分为数量性短语和名词性短语。包含的287个副词性短语按结构模型分为八种结构模型;按内部结构分为状格结构和并列结构,在句子里充当状语。包含的316个时间性短语按结构模型分为十种结构模型;按内部结构分为复指结构、定中结构和中定结构,在句子里充当时间状语。包含的201个特殊短语,按结构模型分为四种结构模型,其余包含了16个谚语和27个习语。