基于条件随机场模型的通用语义角色自动标注研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:xinyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注(Semantic Role Labeling,SRL)是目前语义分析的一种主要实现方式,它也是近年来自然语言处理领域的一个研究热点,是信息抽取、信息检索、阅读理解问答系统等多种自然语言处理技术的重要基础。  2005年山西大学开始开发的汉语框架网络知识库是以Fillmore的框架语义学为理论基础,以英语FrameNet为参照,以汉语真实语料为依据而构建的。目前已完成130个CFN的构建,为我们的语义角色的自动标注研究提供了资源。通用语义角色是在绝大多数词语的框架所激活的场景中都可以出现的,具有通用性。由于在框架理解中是次要的外围的角色,在框架库中对单个框架进行描述时,一般不会提及,因此有必要对这些语义成分单独描述和分析,作为对原框架库的重要补充。  本文以条件随机场为基本模型研究了框架语义中通用语义角色的自动标注问题,标注分三层,语义角色、短语类型和句法功能。实现了一个通用语义角色三层自动标注系统。  条件随机场模型作为一种比较新型的机器学习方法,目前在中文文本信息处理领域,其应用还不多。条件随机场是一个无向图模型,也是一个条件概率模型,它能够更好地描述长距离依赖的标注问题,克服一些模型中存在的标记偏置问题,并避免了严格的独立性假设,在序列标注任务中表现出了良好的性能。本文针对通用语义角色的标注问题,构建多个特征,提出了多种特征模板,并通过大量验证实验,最终确定了有效特征和模板。  本文最后实现了通用语义角色、短语类型和句法功能三层标记的自动标注系统,该系统采用了层叠结构,先标注语义角色,再标注短语类型,最后进行句法功能的标注。通过使用高效的L-BFGS算法对模型参数进行训练和测试,获得了较好的参数估计。实验结果表明,在13个通用的语义角色中,平均达到75.22%的F值。
其他文献
神经网络是一种智能控制技术,它能模拟人的智能行为,能解决传统自动化技术无法解决的许多复杂的、不确定的非线性的自动化问题。因而近几十年来,对神经网络的研究引起学术界
在这篇论文中,我们主要研究一类二阶非线性微分方程Sturm-Liouville边值问题{-u"(t)=f(t,u(t)),t∈[0,1],u(0)=u(0),(1.1.1)u(1)=-u(1)解的存在性与多重性,其中f∈C([0,1]×R1,R1).