论文部分内容阅读
由于介词属于虚词,本身并不像实词那样具有具体的词汇意义,但是介词与其介引对象所构成的介词短语在句法分析中却具有重要意义,介词短语结构在汉语文本中是最常见的短语结构,因此对介词短语结构的自动识别是面向自然语言处理的重要内容之一,本文尝试在介词知识库研究成果的基础上,用基于规则和统计两种方法对介词短语边界进行自动识别,从实验结果来看,统计方法的结果平均比规则方法的结果要高23%,不同的统计模型,对于介词短语边界的识别效果是不同,其中ME模型最好,CRF次之,SVM实验结果最差,此外,在加入介词用法属性特征后,三种统计模型在总体识别准确率上比仅基于后界和后词为特征的识别总体准确率都有所提高,ME提高了0.14%,CRY’提高了0.01%,SVM提高了0.22%。实验结果表明介词用法特征从总体上是有助于介词短语边界识别的,这也说明本文基于介词用法属性进行介词短语边界识别的研究策略是有效的。本文所做的主要工作包括:(1)按照俞士汶等人提出的建立现代汉语“三位一体”的广义虚词知识库的构建思想,在彭爽、咎红英等人初步构建的介词知识库框架内容的基础上,完善了介词知识库。(2)将在构建介词知识库中的形成的介词用法规则库转换成介词短语边界识别的静态规则,利用静态规则对介词用法语料库进行基于规则的介词短语边界自动识别实验。(3)对于介词用法语料库中的介词用法进行校对,并标出所有正确的介词短语结构,得到含有介词用法属性和准确介词短语边界标记的实验语料。尝试在实验语料中利用统计模型考察介词用法属性对介词短语边界识别的效果,验证介词用法属性特征对于介词边界识别是否具有有效性。最后,对论文的研究工作进行了总结与展望,指出构建介词知识库是有利于介词短语边界识别的,并根据本文的研究结果明确了下一步研究的内容。