论文部分内容阅读
汉语基本短语及其结构的分析和识别是自然语言浅层句法分析的重要任务之一,对基本短语及其结构的分析能使句子结构比较清晰,为后续句法分析打下基础。本文在借鉴其他研究者思路的基础上,对短语规则及其结构类型进行了定义划分,在短语功能识别方面,提出了基于转换的HMM算法进行基本名词短语的识别。在短语结构识别方面,提出了基于互信息的最大熵模型算法,进行了汉语的短语结构识别。这两种算法都取得了比较满意的识别结果,其研究内容如下:1.语法规则与语法模板的构建:短语的内部构成信息、短语所处的上下文信息是浅层句法分析要用到的信息。本文分别从功能和结构两方面构建两种不同的模板,为实现基本名词短语和短语结构识别作基础性的工作。对基本名词短语的识别有助于提高对句子主干的分析和识别;对短语结构的识别,有助于进行句子的排歧处理,优化句子结构。2.基于转换规则的隐马尔可夫模型(HMM):首先利用转换规则和HMM模型分别进行基本名词短语的识别,根据理论知识分析了两者结合的思想,并提出算法,进行实验验证,结果表明了两者结合能够提高基本名词短语的识别率。3.基于改进的最大熵方法识别短语结构:分析已有的最大熵模型提出了基于互信息的改进算法,根据互信息计算句子中两个词语之间的依赖程度,然后利用最大熵的方法寻求上下文的特征,这样就选择了更有效的特征,减少模型特征选择的计算量,分析不同的特征选择算法和模型参数的估计算法,选择较好的适用于本文研究的算法,根据实验的模型求出熵最大的概率,最终实现对短语结构的识别。