基于组块的句法分析技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:lulaiyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理领域中的一个核心研究任务,它主要分析句子的组成成分以及各个成分之间的相互关系。句法分析研究一个句子是由哪些短语构成的,而这些短语又是由哪些词组构成的。句法分析任务是自然语言处理领域中一个基础任务,很多其他的研究任务都要基于句法分析的分析结果,这些研究任务包括:语义角色标注(Semantic Role Labeling),统计机器翻译(Statistical Machine Translation),信息抽取(Information Extraction)等。目前主流的句法分析模型都能够在公开的数据集上达到较好的性能,在公开的英文数据集上Bekeley句法分析器可以达到91%的性能(F1值)。然而这些主流的句法分析器虽然能够达到较好的性能,但是它们的速度确实非常慢的,这些分析速度较慢的句法分析模型显然不能够满足实用化的需求。为此,本文研究并构建了一个基于组块的句法分析模型,这种句法分析模型的主要优势在于其快速分析能力,此外,本文还对该模型进行了改进。本文的主要内容如下:(1)研究并构建了基于组块的句法分析系统。基于组块的句法分析模型是一种将组块分析技术应用到句法分析任务中的句法分析模型。基于组块的句法分析模型将句法分析任务分为两个子模块,分别是:基层组块分析和上层组块分析。基层组块分析主要是对词和词性这一层的组块分析,而上层组块分析在基层组块分析的基础之上是一个不断进行组块分析和组块合并的循环迭代过程,直到合并到最后的根节点。(2)研究了改进词性标注的方法。词性标注也是自然语言处理中一个基础的任务,它的主要目标是自动的赋予每个词一个正确的词性。本文构建的基于组块的分析模型的输入数据首先要进行词性标注,因此,提高句法分析模型的一个直接方法就是提高词性标注的性能。本文首先研究了句法特征对词性标注的改进作用,然后又使用转换方法将其他人工标注的数据转换为新的训练数据,并用所有训练数据来重新训练标注模型,从而提高词性标注的性能。实验表明,两种方法能够显著的改进句法分析的性能。(3)研究了改进基于组块的句法分析模型的方法。主要从三个方面来改进句法分析模型:第一种是通过使用更丰富的特征来改进分析模型;第二种是使用半指导的方法来改进分析模型;第三种是使用n-best句法分析技术来搜索最优的句法分析树。最终的实验表明,后面两种方法能够显著的改进句法分析的性能。本文的贡献度主要表现在:研究并构建了基于组块的句法分析模型,并首次研究了该模型在中文上的分析性能;提出了两种改进词性标注的方法,并验证了这两种改进方法对句法分析性能的影响;提出了三种改进基于组块的句法分析模型的方法,并验证了这几种方法对基于组块的句法分析模型性能的改进作用。最终的实验表明,本文提出的大部分改进方法能够有效的改进句法分析模型的性能,这为推进基于组块的句法分析模型的实用化提供了基础。
其他文献
该文的主要研究工作如下:1.通过分析各种CSCW系统的模型和体系结构,给出了开发平台的系统模型和体系结构.2.在系统采用活动模型的基础上,确定了各个CSCW系统的公用模块和特有
随着时代的发展,新兴的电子应用系统——嵌入式系统,以其明显的体积小,价格低,专用性能高的优势,越来越受到人们的重视和亲睐。当今社会的另一主流趋势是信息共享.如何将两者结合起
本文主要对校园级网格计算环境中的资源管理方案和任务调度策略进行了研究,设计并实现了一个校园级的网格计算系统CwGCS用来对资源管理方案和任务调度策略从总体上进行验证,设
客户服务中心是计算机电话集成技术的重要应用领域,是企业处理与客户关系的重要方式.客户服务中心的发展趋势是大客户服务中心,即在一个客户服务平台上支持多个行业的不同业
经济全球化已成为当今世界经济发展的主要趋势,世界各国都把电子商务,特别是在Internet上开展的B2B电子商务作为推动经济发展的战略选择。电子商务的飞速发展和企业信息系统的
该文研究背景:在图像通信领域中,高性能的图像压缩算法和实时的图像传输一直是人们不懈追求的目标,以图像压缩技术为基础的远程图像监控系统更是有着很高的研究和实用价值.该
论文以国家高技术研究发展计划(863计划)机器人主题资助课题“数控成型设备开发与研制”为背景,探讨了在通用操作系统Windows下实现实时计算机数字化控制系统的设计思想和实现
嵌入式的实时应用越来越广泛,渗透到越来越多的领域,系统设计越来越复杂,嵌入式实时操作系统很迅速的发展起来.该文首先详细分析了目前流行的几种嵌入式操作系统的各个组成部
该文首先归纳和分析了当前人脸检测的典型算法,然后提出了一个由粗到精的多阶段算法用来在复杂背景中检测个数、尺寸和位置皆未知的人脸.该算法利用肤色模型初步提取人脸区域
该文以界面的FMP模型为基础,提出了基于界面模型和界面模板的界面构造和生成方法.其最根本的指导思想就是准确描述进而重用前人的界面设计也就是界面设计模式的成熟经验. 用