基于CVG模型的中文短语结构句法分析研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:dalang003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析的基本任务是确定句子的句法结构,由于语言的复杂性,句法结构往往有歧义的存在,需要引入大量信息来减少歧义,提高句法分析结果。句法分析一般分为短语结构句法分析和依存句法分析,本文主要研究的是短语结构句法分析。CVG(Compositional Vector Grammars)模型能够很好的捕捉句法分析所需信息,本文将对CVG模型进行深入研究,并对基于CVG模型的句法分析器进行改进,使其能在中文句法分析上有更好的性能表现。CVG模型将PCFG(Probabilistic Context Free Grammars)和SU-RNN(Syntactically Untied Recursive Neural Networks)相结合,利用PCFG模型预测结构,生成候选树,利用SU-RNN捕获短语和词汇的细粒度语法和组合语义的信息,并利用这些信息对生成的句法树进行重新计算得分,进行重新排序。本文主要工作如下:1)本文将尝试利用CVG对中文进行句法分析,首先对CVG模型进及其关键技术进行了介绍,并使用Stanford Parser在CTB8.0(Chinese Treebank 8.0)上训练出一个PCFG模型作为基准模型,在此基础上,又训练出一个CVG模型,给出其在中文句法分析上的性能表现,及和PCFG模型的性能对比。2)CVG模型中存在着一些问题,针对这些问题本文给出了改进措施:a)对于一词多义,通过融入词性信息,将<词,词性>作为一个整体进行训练,来解决多义词问题;b)对于未登陆词问题,将其分成两类,针对每类提出了不同的解决办法,第一类是语料中不存在的词,对于这种未登陆词可以用结构向量进行替代,第二类是语料中存在这个词,不过不存在其对应的词性,则先用结构向量替代,并对词性的父结点所在的子树的得分进行惩罚,如果还没有找到对应向量,则用零向量替代;c)对于因为树的二叉化所引起的新生结点和原结点难以区分所导致的父结点向量表示不确切的问题,提出了对新生结点类型临时增加标记位的解决办法;d)对于CVG模型中结点得分计算存在冗余的问题,提出将得分函数中的参数依赖由原来的孩子结点类型改为本结点类型。3)本文最后对改进措施在CTB8.0上进行实验,通过逐次增加的办法,验证四个改进措施是否有效。实验表明,这四个改进措施是有利于句法分析器性能的提高的,其在开发集上的F1值比CVG模型提高了0.92%。并通过对比分析模型生成结果的错误类型,再次验证改进措施的有效性,且为进一步提高句法分析提供准备工作。
其他文献
用户基础属性的预测主要是对用户的性别、年龄、职业、地理位置和文化程度等基本信息的分类。用户的基础属性的预测研究是机器学习领域的热门问题之一,也是大数据应用的研究热
知识丰富的工作流系统在实现企业过程重组、面向过程的应用等方面显示了强大的功能和广阔的应用前景。目前相对知识工作流产品的实现技术和发展速度而言,基于工作流知识的建
随着Internet的不断发展以及信息处理的不断增多,数据库安全问题变得日益重要。数据库中原始数据一般以明文形式存储,很容易被外部恶意攻击者窃取。目前,数据加密技术成为一
Internet的迅猛发展推动了视频直播系统的广泛应用,但现有的视频直播系统在扩展性、鲁棒性、质量保证等方面远远不能满足需要。传统的基于单播的传输方式很容易导致服务器端
由于用户越来越多的个性化网络服务需求,传统互联网的僵化现象日渐显著。网络虚拟化不仅被认为是创建云计算生态系统的有效技术,而且被认为是未来互联网最有应用前景的技术。
无线传感网(Wireless Sensor Network,WSN)综合了嵌入式系统,无线通信和现代网络等先进技术,目前已经成为研究的热点方向和领域。通过在监测区域内布置一定数量传感器节点进
Peer-to-Peer(P2P)以其丰富的应用模式正在迅速流行,在短短几年里,P2P应用己成为了占用Internet流量最多的应用,被《财富》杂志称为改变互联网未来发展方向的四大技术之一。
目前,对仪表进行校准和检定工作主要还是由人来完成的,这种采用人工读取和记录其数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂
话音安全传输系统需要解决的主要问题是传输和安全。传输主要包括语音流传输和语音编码的研究,其中语音编码是整个系统的难点,也是本文的重点。话音压缩编码解决了话音原始数
随着Internet的迅速发展,网络信息不断膨胀,给搜索引擎带来了前所未有的挑战。人们对搜索引擎的关注程度越来越高,因此搜索引擎的发展水平在一定的程度上决定了互联网资源的