论文部分内容阅读
自然语言处理已经发展了几十年,近年来随着互联网的高速发展,人们使用计算机处理自然语言的需求越来越多。词是最小的语言单位,而汉语中词与词之间没有间隔,因此,分词成为解决一切汉语信息处理问题的基础。文本检索、机器翻译、文本抽取、文本分类、网络文本挖掘、问答系统全都需要自动分词的支持。
汉语分词在汉语信息处理中具有重要的地位,同时也是汉语信息处理的一个难点问题。汉语分词的难点包括:词的概念不明确、未登录词、切分歧义、离合词等等。其中,切分歧义的问题是本文研究的重点。
统计语言模型在越来越多的自然语言处理领域被采用,并且取得了不错的效果,本文在充分研究分析汉语分词切分歧义的基础上,在利用统计语言模型解决汉语分词切分歧义方面做了一些工作,主要工作包括:
1.研究分析了汉语分词中的交集型歧义和组合型歧义问题,并对相关工作进行了介绍和分析。
2.介绍统计语言模型n-gram,设计并实现了n-gram语言模型,构建了包括预处理、n元词串抽取、参数估计、模型评价在内的一个工具集。为利用n-gram语言模型处理很多语言问题打下基础。
3.利用实现的语言模型,提出了一种多层次的基于多种权值估计函数的交集型歧义消歧算法。此算法充分分析了各种交集型歧义出现的可能性,既考虑了上下文对歧义字段的影响,也顾及到歧义字段各组成成分的内在联系。实验结果表明,本文在汉语分词的交集型歧义处理方面取得了不错的效果。
4.对汉语分词组合型歧义作了初步研究,提出了一种利用统计语言模型解决组合性歧义问题的策略。
本文在利用统计语言模型解决汉语分词中的歧义问题方面做了一定的研究,对利用统计语言模型进行汉语信息处理进行了探索。同时,我们所设计并实现的统计语言模型工具集为将来的研究工作,如基于统计的词性标注、汉语分析、机器翻译等等,提供了一个平台。