论文部分内容阅读
在中文信息处理领域,对于汉语分析最基本的一项任务就是自动分词,在自动分词阶段主要面临两方面的问题:未登录词的识别,歧义字段的切分。其中,未登录词识别是影响分词正确性的重要因素之一,是自动分词的一大难题。近年来,国内许多学者对未登录词识别中命名实体的识别研究的较多,而且已经取得了较好的成果,但是对派生词的识别缺乏广泛的研究,常是以个案研究居多,一定范围内的穷尽式研究较少,而且没有对派生构词模式做系统的分析,忽略了词语本身的内部结构特点。鉴于实验文本的有限性和研究对象的特点,本课题所研究的派生构词模式是指词干和词缀组合而成的词,并且以未登录词和派生词的定义为基础,从信息处理角度出发,将未登录派生词界定为词干部分出现在词表中,词缀出现在词缀表中,但是词干加词缀组合而成的词没有出现在词表中的派生词。本文在原有的对词缀界定的理论研究的基础上,加入计算语言学研究中的重要手段——基于语料库的量化分析研究方法,给出了面向中文信息处理的词缀界定标准,制定了信息处理用词缀表。以词缀的界定标准为依据,对信息处理词缀表中每个词缀进行分类研究,考察各种派生构词模式中的语法和语义特点,量化分析语料库中已登录派生词的构词模式。在进行未登录派生构词模式研究的时候,根据词缀语法意义的不同将词缀进行分类,依据语料库中未登录派生词的分布特点,重点分析“们”式未登录派生词和“者”式未登录派生词的构词模式及其特点,并且穷尽式的列举了语料库中其他未登录派生词的构词模式。在研究语料库中未登录派生词识别问题时,根据词缀派生构词能力的不同进行了两组平行实验,分别设计特征模板,借助条件随机场模型进行识别实验,通过实验结果验证实验方案的可行性。最后,对本文的工作进行总结和展望,概述论文工作的主要内容,并提出下一步工作的设想。