图模型在自然语言处理中的研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理中,统计方法占据着重要的地位。通过自动或半自动方式从大量数据中学习语言的统计知识,这类方法可以有效地对各种语言现象进行建模,其实用性也在中文分词、词性标注、句法分析等具体任务中得了很好的证明。然而与统计语言模型所能描述的语言现象相比,实际应用中的自然语言要复杂得多,特别是各种各样的约束条件,如长距离句法约束关系等困难问题,很难使用纯统计的方法进行处理,因此目前自然语言处理研究的主要思路是在统计模型框架下,整合各种基于规则进行描述的语言知识,不断提高语言处理系统的性能。  图模型把图论和统计方法结合起来,把基于图的推理应用到概率统计框架中,为描述自然语言中各种复杂的约束关系提出了一种可行的思路。图模型定义在一组与问题相关的随机变量上,每个变量对应于图中的一个节点,节点之间的约束关系用边表示,通过因子图的定义把图的结构和指数概率分布族联系起来,以特征的方式把语言知识或现象采用统一的方式整合到概率分布中,用于解决各种自然语言处理任务。本文首先给出图模型的基本定义,并详细介绍了两种常用的图模型:最大熵模型和条件随机场,随后提出了一种基于权值的特征选择算法,并对图模型的融合策略进行了探讨,最后论述了使用图模型在音字转换和句法语义依存分析中所做的工作,具体来讲,主要包括以下4个方面的内容。  (1)探讨自然语言处理中常用的特征选择算法,并基于对图模型基本结构的分析,提出了一种基于权值的特征选择算法,算法以权值大小作为衡量特征重要性的唯一标准,并根据问题的最终目标进行特征筛选。为了保证算法的可行性,特征空间首先根据分而治之的思想被划分为若干个不相交的子空间,并分别在各个子空间上构造图模型,特征选择过程被应用于各个子模型,最后把各个子空间中保留下来的特征及其权值组合起来构成最终的特征空间,同时也完成了模型的构造过程。由于自然语言问题中特征空间规模通常很大,这种算法为有效筛选有用特征提供了一种新的思路。  (2)讨论图模型融合的基本过程,并重点分析了基于结果层次的多数表决算法和基于特征层次的模型融合算法,前者不关心各个子模型的实现细节,通过使用投票方法整合各个子模型的结论获取最终结果,后者使用多种策略合并特征在不同子模型中的权值构造唯一的图模型。为了验证融合算法的有效性,构造了一个使用所有特征进行训练的单一模型用于比较,结果表明,融合模型在合成数据和词性标注问题上具有一定的可比性,甚至在某些方面优于单一模型。  (3)把音字转换问题作为序列标注问题进行处理,探讨了最大熵模型和条件随机场模型在该问题中的应用,此外还针对同音字集合的特点提出了一种基于字频序的音字转换方法,首先把拼音转换成字频序,然后使用字频序跟汉字之间的映射关系推导出汉字,这种方法为处理大标注集问题提供了一种借鉴思路。算法的有效性在手工整理的规模为50000个汉语句子的语料上进行了验证,实验结果说明,图模型能够有效解决音字转换问题。  (4)句法语义依存分析被分成句法依存分析、中心谓词识别和语义依存分析三个子任务进行处理。在句法分析中,把基于图模型定义的指数概率分布函数作为得分函数应用于最大生成树算法中,通过整合句子中的各种词法和词性约束条件,求解出最佳的句法依存树。中心谓词识别和语义分析的数据分布使用最大熵模型进行建模,作为分类方法解决。系统被用于参加CoNLL2008 shared task评测,在开放测试和封闭测试中分别取得了第2和第11的成绩。
其他文献
随着网络业务的不断发展,Internet上出现了大量的网络数据中心。这些数据中心为不同的公司、企事业单位提供服务器业务托管和网络接入等各种服务。一些网络信息公司其至拥有自
近年来,复杂网络系统已经融入到人们生产生活的方方面面。作为一个新兴且活跃的科学研究领域,复杂网络早已引入到在现实世界网络的实证研究。目前,在计算机科学、社会科学、
局部保持的典型相关分析(LPCCA)是一种能够解决大量非线性问题的新型算法。它通过局部线性的方法达到解决非线性问题的目的,不但能保持各样本集的局部结构信息,而且能够得到
互联网的高速发展给人们的生活带来了许许多多的便利,但是同时也为网络犯罪分子提供了更多途径,所以引导青少年健康上网,依法严厉打击淫秽色情信息传播成为了互联网工作不可
随着信息技术的不断发展,不断产生的具有分布、异构、海量等特征的数据源对存储资源、计算资源和网络资源等提出了极高的性能需求,也为以往的数据资源管理技术带来了巨大的挑战
学位
桥梁是投资巨大,使用期长的大型基础设施,因此它的安全性对国民经济有着举足轻重的影响。我国现有大小公路桥5000余座,在运营过程中,由于荷载、疲劳、腐蚀和材料老化等不利因素的
问答系统是信息检索分支,属于精确检索。问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术,是国内外信息技术的研究热点。目前,国内外
电视的数字化给我们带来了很多新的服务。数字电视条件接收系统能够提供有效的系统管理和用户控制,是数字电视运营商开展付费电视及各种增值业务的关键技术。随着高清的开播,
随着互联网的发展,许多应用开发中会遇到数据分布在不同的地点的情况,而且这些数据存在着异构性,因此开发应用需要对这些分布式的异构数据进行有效集成。同时由于在这些数据
近年来,混合动力汽车作为传统汽车向电动汽车转换的过渡产品,得到越来越多的关注。混合动力汽车在传统的燃油车的基础上,新增了电机、电池等部件,从而需要发动机控制器、电机控制