汉语完全句法树库一致性检验方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:wcf333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个关键技术,它对于语义分析、机器翻译、信息检索和自动文摘等有着极其重要的意义。所谓句法分析就是指对句子中词语的结构和语法功能进行分析,其目的主要是确定句子的结构和各成份间的关系。建立基于句法树库的统计模型是句法分析的重要研究方向,句法树库的标注质量直接影响模型的质量。目前的许多汉语句法分析自动标注算法的准确率不够高,需人工修正句法树库,并对修正结果进行一致性检验。我们采用的一致性检验方法是通过多个标注者对人工标注过的文本进行反复交叉校验,尽量减少人工标注的疏漏,然后扫描整个树库,检查出不一致的标注,即发现树库中同样或类似的语言环境下标注不一致的地方。本文在为阿里巴巴公司建设汉语句法树库的基础上,通过对20 000句语料库完全句法树库的加工,探索不一致现象产生的原因及应对策略,主要工作如下:(1)根据汉语语料库所面向的应用需求,制定出相应的句法树加工规范,完备的加工规范有利于保证标注结果的一致性。树库的标注规范主要有以下两部分:标注方式和标记集。标注方式介绍使用什么形式组织句子中词与词之间的关系。标记集是描述汉语句法的功能特征和结构关系的符号集合。标注者参照标注规范中的示例对自动标注过的树库进行人工修正。(2)分析完全句法分析不一致现象产生的原因及应对方案。原因之一是规范本身不够完善,我们分析讨论人工修正句法树库的过程中遇到的问题,不断对加工规范补充修正;原因二是由于人工修正的操作有疏漏,需要对人工修正结果进行一致性检验。(3)提出基于分层的检查方法和自动消解策略。树库中的不一致现象分为三个层次,即分词、词性标注以及句法分析不一致。这三个层次是互相影响的,本文首先利用规则的方法,顺序读取树库,排查分词不一致现象。然后通过聚类的方法检查词性标注不一致现象。(4)分别从单层句法分析标注和多层句法分析结构优先顺序进行句法分析不一致检验。针对单层结构或功能理解不同造成的不一致的消解,主要考虑通过规则的方法修正。本文主要使用基于转换的错误驱动的标注方法。对于多层句法分析结构优先顺序引起的不一致,需要从结构树中结构优先顺序方面考虑,建立语言环境支持向量模型,根据上下文信息确定出一种最合适的句法结构。实验结果表明,分词和词性标记的不一致对句法分析结果的不一致的影响是十分显著的。经过切分和词性标注一致性检验后,句法分析不一致现象大量减少。查找和修正句法分析层面的不一致现象是一致性检验的难点,本文利用规则和统计方法,通过人工和自动机器相结合的策略,可以有效检验此类不一致现象。采用本文的方法对阿里巴巴汉语句法树库进行一致性校验,结果表明一致性检验的准确率为78.2%,召回率为90.1%,本文给出的方法确实能够使树库标注的准确率提高约3%。
其他文献
高校开展财务管理工作时,要重视科研经费管理工作,提升科研经费核算的准确性,了解高校财务管理工作的实际情况,并制定针对性的解决措施,完善现有的科研经费管理制度,选择合适
水利工程是我国重要的惠民工程,其职能主要包括了蓄水、防洪、灌溉、发电和养殖等,不仅为我国经济发展做出了巨大贡献,而且还起到了维护我国社会安定的作用.近年来,由于水患
国有企业在建立完善财务管理体系的基础上,应当实行全面预算管理,加强企业资金集中管理工作的力度,才能确保企业在激烈的市场竞争中始终占据有利的位置.但是由于很多国有企业
期刊
随着信息技术及计算机技术的发展,大数据技术在更多的领域开始应用,该技术的应用对各个行业来说都提高了业务的范围和工作效率.本文以大数据为背景 对企业财务管理进行概述,
石油行业价格逐年下降,石油企业面临现金流紧张困境,财务绩效不容乐观,需进一步加强现金流管理工作.基于此,文章以大型石油企业财务报告为样本数据,通过多元回归分析方法探究
疾控机构财务管理是疾控机构管理的重要组成部分,必须适应疾控机构的长远发展.本分分析了疾控机构财务管理存在的主要问题,并提出了改进的途径和方法,以期能够为做好此类工作
内部审计质量控制是科研院所内部审计作用充分发挥的前提,也是科研院所审计工作效率、工作水平提升的关键.因此,文章以科研院所内部审计质量控制为研究对象,阐述了科研院所内
我国市场经济的发展导致循环经济越来越重要,笔者在本文对循环经济视角下国有企业成本管理进行进一步的探讨,希望对促进我国经济的发展,可以起到有利的作用.