论文部分内容阅读
汉语基本名词短语自动识别作为中文信息处理的基本任务之一,在浅层句法分析、信息抽取和检索、机器翻译等自然语言处理领域都有十分重要的理论价值和广阔应用前景。在语言学本体研究中,汉语基本名词短语作为包含着丰富的语法信息的载体,它区别于一般的汉语名词短语,其构成基本名词短语的实词搭配形式,如:“名词+名词”、“形容词+名词”、“动词+名词”、“名词+动词”、“数词+量词+名词”等搭配组合都是语言学家们研究与关注的重点。以往的汉语基本名词短语自动识别研究只是在现有的人工标注好的语料上进行单一统计模型的自动识别实验,并没有很好地利用统计模型进行自动识别同时再融入语言学的相关信息来进一步提高识别效果。
本文的工作在约100万词次973清华中文树库的基础上,对其中所包含的基本名词短语进行了详细的统计和分析,具体考察了基本名词短语的词性序列分布信息、长度分布信息和音节组合模式分布信息,同时在参考黄昌宁先生在自动分词领域提出的词位能产度计算公式的基础上,对组成基本名词短语的词语的词位信息进行计算和分析,这些相关的统计考察工作为接下来利用统计模型识别基本名词短语提供必要的数据支持和统计决策。
在基本名词短语识别中,我们采用一种基于统计词位信息的多标记多特征的基本名词短识别方法,在确定词位标记时,我们不是简单的采用当前国际上通用的BIO语块标注体系,而是通过参考基本名词短语的长度语法信息和词位语法信息来确定具体的标记数目,并且结合一些有效的特征信息进一步提高识别结果。在识别结果评价方面,我们进一步规范了对于语块识别的评价标准,提出了采用未登录短语召回率(Unkonwn Phrase Recall)做为评价识别基本名词短语统计模型的重要标准,并且对不同的统计模型进行了相关的对比识别实验。
在互动识别实验中,我们采用基于词位信息校正的多分类器识别方法,主要思想是先计算出训练语料中组成基本名词短语的词语的词位能产度统计量,再利用这些统计量对不同统计模型分类器的不同分类结果进行校正。从实验结果上看,本文所使用的基于词位信息校正的多分类器的基本名词识别方法优于单一采用统计模型的识别方法。