论文部分内容阅读
汉语词性标注作为自然语言处理领域的基础性研究课题之一,近年来受到广泛的关注和深入的研究。词性标注的研究成果可为信息抽取、汉语语义分析等其它高层处理任务提供必要的基础,在实际的自然语言应用中起到至关重要的作用和影响。因此,本文以词性标注为研究目标,对其中的关键问题做系统研究。目前,英文词性标注的准确率较高,用传统的统计模型即可解决,这是由英语的语法特点决定的。兼类词的标注准确率是影响词性标注准确率的决定性因素,英语兼类词词性的变化一般是随着词形的变化而变化的,而汉语兼类词就不存在有词形的变化了,这给我们统计模型带来了很大的困难,汉语词性标注的准确率就要比英语词性标注的准确率低很多。另外一个影响词性标注准确率的重要因素就是对未登录词的处理。未登录词就是在统计模型词典中未收录的词,当我们的词典到达一定规模的时候,未登录词就主要是一些命名实体词了,包括人名、地名、机构名等等。特征模板的选择也会影响词性标注的准确率,统计模型是根据特征模板来统计上下文信息的,所以特征模板的设置也是很重要的。如何解决上述问题对汉语词性标注来说是至关重要的。目前,汉语词性标注主要分为三种方法,即统计、规则以及规则和统计相结合的方法,第三种方法结合了统计方法与规则方法的优缺点,能够很好的解决汉语词性标注问题。本文就是围绕第三种方法展开研究。本文主要做了以下几个方面的工作。首先,建立了隐马尔科夫模型、条件随机场模型、最大熵模型三种传统的统计模型,并用这三种模型对《人民日报》语料库进行词性标注,统计标注结果。同时,又对汉语词性标注的特征选择进行了研究,了解不同特征模板对汉语兼类词标注准确率的影响,从而确定了自己的特征模板选择方法。针对词性标注中未登录词的问题,本文提出了自己的处理策略,即规则和统计相结合的方法,提高了词性标注的准确率。同时,对于传统的统计模型对汉语兼类词标注准确率不高的问题,引入了一种基于互信息的汉语词性标注规则挖掘方法,对规则挖掘进行了研究,并引入规则优先级算法解决规则冲突问题,最后将所得规则和统计模型相结合,实验结果表明,规则挖掘方法提高了词性标注的准确率。