论文部分内容阅读
在自然语言处理中,统计方法占据着重要的地位。通过自动或半自动方式从大量数据中学习语言的统计知识,这类方法可以有效地对各种语言现象进行建模,其实用性也在中文分词、词性标注、句法分析等具体任务中得了很好的证明。然而与统计语言模型所能描述的语言现象相比,实际应用中的自然语言要复杂得多,特别是各种各样的约束条件,如长距离句法约束关系等困难问题,很难使用纯统计的方法进行处理,因此目前自然语言处理研究的主要思路是在统计模型框架下,整合各种基于规则进行描述的语言知识,不断提高语言处理系统的性能。 图模型把图论和统计方法结合起来,把基于图的推理应用到概率统计框架中,为描述自然语言中各种复杂的约束关系提出了一种可行的思路。图模型定义在一组与问题相关的随机变量上,每个变量对应于图中的一个节点,节点之间的约束关系用边表示,通过因子图的定义把图的结构和指数概率分布族联系起来,以特征的方式把语言知识或现象采用统一的方式整合到概率分布中,用于解决各种自然语言处理任务。本文首先给出图模型的基本定义,并详细介绍了两种常用的图模型:最大熵模型和条件随机场,随后提出了一种基于权值的特征选择算法,并对图模型的融合策略进行了探讨,最后论述了使用图模型在音字转换和句法语义依存分析中所做的工作,具体来讲,主要包括以下4个方面的内容。 (1)探讨自然语言处理中常用的特征选择算法,并基于对图模型基本结构的分析,提出了一种基于权值的特征选择算法,算法以权值大小作为衡量特征重要性的唯一标准,并根据问题的最终目标进行特征筛选。为了保证算法的可行性,特征空间首先根据分而治之的思想被划分为若干个不相交的子空间,并分别在各个子空间上构造图模型,特征选择过程被应用于各个子模型,最后把各个子空间中保留下来的特征及其权值组合起来构成最终的特征空间,同时也完成了模型的构造过程。由于自然语言问题中特征空间规模通常很大,这种算法为有效筛选有用特征提供了一种新的思路。 (2)讨论图模型融合的基本过程,并重点分析了基于结果层次的多数表决算法和基于特征层次的模型融合算法,前者不关心各个子模型的实现细节,通过使用投票方法整合各个子模型的结论获取最终结果,后者使用多种策略合并特征在不同子模型中的权值构造唯一的图模型。为了验证融合算法的有效性,构造了一个使用所有特征进行训练的单一模型用于比较,结果表明,融合模型在合成数据和词性标注问题上具有一定的可比性,甚至在某些方面优于单一模型。 (3)把音字转换问题作为序列标注问题进行处理,探讨了最大熵模型和条件随机场模型在该问题中的应用,此外还针对同音字集合的特点提出了一种基于字频序的音字转换方法,首先把拼音转换成字频序,然后使用字频序跟汉字之间的映射关系推导出汉字,这种方法为处理大标注集问题提供了一种借鉴思路。算法的有效性在手工整理的规模为50000个汉语句子的语料上进行了验证,实验结果说明,图模型能够有效解决音字转换问题。 (4)句法语义依存分析被分成句法依存分析、中心谓词识别和语义依存分析三个子任务进行处理。在句法分析中,把基于图模型定义的指数概率分布函数作为得分函数应用于最大生成树算法中,通过整合句子中的各种词法和词性约束条件,求解出最佳的句法依存树。中心谓词识别和语义分析的数据分布使用最大熵模型进行建模,作为分类方法解决。系统被用于参加CoNLL2008 shared task评测,在开放测试和封闭测试中分别取得了第2和第11的成绩。