基于最大生成树的三阶中文依存句法分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:peterwei2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理属于人工智能的一个领域分支,主要研究人类如何有效地运用人类语言与计算机进行通信,是一门融合了语言学、计算机科学与数学于一体的科技。自然语言处理包括浅层分析与深层分析。浅层分析主要分析句子的局部信息,其中包括分词、词性标注、命名体识别等。深层分析主要在全局上对句子进行分析,其中包括句法分析和语义分析。句法分析在自然语言处理中处于十分关键的位置。  目前广泛用于句法分析的语法体系有短语结构语法与依存结构语法。其中依存语法直接划分句中的词间关系,易于理解与标注、形式简洁,逐渐受到自然语言处理研究人员的重视,已广泛应用到机器翻译、自动问答系统、信息检索等领域。  但目前句法分析的准确度仍不能达到实用的程度。本文在最大生成树模型(MstParser)的基础上,提出了Sibling-Child三阶依存解析模型,并对原有的最大生成树依存分析系统进行了改进,降低了系统运行时间,并提高了中文依存分析的准确率。本文的研究工作主要包括如下几个方面:  (1)本文系统总结了近年来基于最大生成树的判别式投影(projective)依存句法的几种解析模型:一阶模型、Sibling二阶模型、Grand-Child二阶模型、Higher-Order模型、三阶Grand-Sibling模型、三阶Tri-Sibling模型等。  (2)本文提出了新的三阶依存(Sibling-Child)句法解析模型,并对原有的最大生成树依存分析系统进行了改进,有效地降低了系统运行时间和提高了中文依存分析的准确率。  (3)本文在传统特征如词、词性(POS)、依存距离、依存方向基础上引入了词聚类类标特征。进一步地提高了中文依存句法分析的准确率。  (4)本文设计并实现了带界面的Sibling-Child三阶中文依存分析系统。
其他文献
随着移动通信技术的飞速发展和无线网络的日趋演进,各种现有的以及未来新兴的无线接入技术共同存在,既相互补充又相互竞争,构成了下一代泛在的无线网络。然而不同的接入技术在带
近年来随着Web2.0的发展,各种创新的应用和产品不断在互联网中出现使我的工作生活越来越离不开网络应用。而由此产生的大规模甚至超大规模数据存储和运算需求仅仅依靠传统的
现代远程医疗系统以视频会议技术为依托,结合现代医疗技术,在医疗专家与医务人员、医疗专家与病人之间构建起一个“面对面”的信息交流平台。该技术能够促进高水平医疗资源如
可编程逻辑控制器作为现代工业控制四大支柱之一,在各种工业过程控制及各类机电一体化设备控制中发挥着越来越重要的作用。随着计算机技术的发展,IEC61131-3标准的日益推广,
嵌入式系统的应用日益普及,目前已经呈普适发展的前景。同时人们对嵌入式系统的功能需求,也日益向更快的速度、更低的能耗、更强的数据处理能力等方向发展。满足不断增长的运
运动捕捉技术已经在数字娱乐、运动仿真等诸多领域得到广泛的使用。相较于传统的动画制作技术,运动捕捉技术在创建角色的逼真性以及制作方式的便捷性上有着显著的优势。但是
随着互联网技术和电子商务的迅猛发展,Web服务作为信息服务资源的具体实现之一得到了更为广泛的使用。Web服务因其跨平台、松耦合的特点,支持在不同语言,不同平台上进行有效
定位与地图构建是自主移动机器人的核心技术,但由于单纯码盘、惯导等航迹推演的定位方法存在累积误差,使得生成的地图一致性遭到破坏,给机器人自主移动带来严重隐患。机器人
可信软件技术的不断发展,迫切需要合理的可信评价体系来考查这些技术在提高可信性方面的贡献和效果。同时,可信性评价也为用户从众多软件产品中选取符合自己需求的软件提供重
延迟容忍网络(简称容迟网络,Delay-Tolerant Network)是一种通用的、面向消息的、可靠的网络体系结构,用于支持具有间歇性连通、高延迟、低数据传输率等通信特征的不同网络的