论文部分内容阅读
词类问题一直是汉语研究中的重点、难点和热点问题,汉语有没有词类、能不能划分词类以及如何划分词类这些问题经过语言学家们的讨论及研究,目前已经基本解决并达到共识:汉语有词类且能够根据语法功能划分词类。词类标注问题也受到中文信息处理、现代汉语语法和词汇学界的共同关注,为此,语言学家们已提出多种汉语词类标记体系,也正因为如此,各自对一些词的词类划分存在较大差异,且目前为止没有人对大规模的词类标注成果进行系统比较。因此本文以《现代汉语词典》(第5版)和《现代汉语语法信息词典》两部大型词典的词类标注成果为比较对象,基于所提出的词类对应算法,自动找出两部词典中对同一个词在词类标注上的差异,进而对形成差异的原因进行分析,并就词类标注发表自己的看法。本论文的主体内容安排如下:本文共分为五部分。第一部分是绪论,主要阐述关于现代汉语词类划分的相关研究以及目前关于两部词典的词类标注及对比的研究现状,对本文的研究目的、研究方法以及创新点进行了说明。第二部分介绍语料的来源和数据的提取。本文以《现代汉语词典》(第5版)和《现代汉语语法信息词典》为语料,设计程序算法,对两部词典中已标注词类的词采用计算机进行提取对比,得出词类对应结果:成语类、等值类、等数不等值对应类和不等数不等值对应类四种。本文的研究目标是对后两种进行分析。第三部分是对等数不等值对应类词进行分类研究。该类分为四小类:覆盖型对应类、变化型对应类、标准不一型对应类和伪对应类,并对四小类下面存在差异的词类进行分类对比分析。第四部分主要是分析不等数不等值类。这类词主要是除共有词性以外,两部词典中标注不一致的词。共分为三小节,第一节是对《现代汉语词典》中对空的词进行研究,第二节是对《现代汉语语法信息词典》中对空的词进行分类比较,第三节是对两部词典中不对空也不对等的词作简要分析。第五部分是结语。对本文的研究结果做扼要说明,对两部词典中存在标注差异的词及其原因和最终结果进行总结。本文的创新之处在于:一是对两部词典中的词的词类进行对比研究,特别是存在标注差异的词。此类的文章凤毛麟角,更别说是系统地研究。目前仅俞士汶等学者在第十六届汉语词汇语义学国际研讨会论文集中发表了一篇关于《两部词典词语归类结果之初步比较》的文章,这篇文章从识同辨异的角度对两部词典中的介词类词语进行了初步比较。二是本文从微观的角度对每类词甚至每一个词进行具体的分析。在实际的分词词性标注过程中,我们更多关注的是两部词典中对于同一个词的不同词性标注,这给人工标注和校对带来了困扰,因此本篇文章从微观角度出发,对两部词典中存在词类标注差异的词语进行研究,并对造成差异的原因进行解释,且进一步提出自己的看法,期冀本文的研究能对词典编纂和中文信息处理做出一点贡献。