【摘 要】
:
事件描述了特定的事件成员在某个特定时间及地点表现出一系列动作特征的客观事实。事件抽取任务的目标是抽取出自由文本中指定的事件信息,并将其以结构化的形式输出。结构化
论文部分内容阅读
事件描述了特定的事件成员在某个特定时间及地点表现出一系列动作特征的客观事实。事件抽取任务的目标是抽取出自由文本中指定的事件信息,并将其以结构化的形式输出。结构化的事件信息包括触发词、触发词的类型、事件成员及事件角色。事件抽取任务又可以分为事件类型判定和事件角色判定,本课题主要聚焦于前一个任务。现有的事件类型判定方法因数据稀疏问题的存在,使其性能受到很大的影响。事件抽取语料规模较小以及类型分布不平衡等数据稀疏问题往往会造成分类器训练不充分,难以在测试语料中准确的抽取出训练语料中没有出现或者出现较少的信息。针对事件类型判定任务中出现的上述问题,本文分别提出了以下三种解决方法:基于关联性传播的事件类型判定方法研究本课题提出了基于事件类型关联性传播的方法来优化事件抽取研究。该方法旨在结合外部文档,挖掘与待测文档的相关事件类型,并将其“传播”到被系统“遗漏”的样例上,从而可以对基抽取模块的结果进行修正,以此来提高系统召回率。同时,为了缓解“过度传播”,本课题还引入了基于“分类置信度评分”以及基于“主题分布熵”的限制条件,从而在保证召回率的前提下更进一步的提高准确率,最终提高了事件类型判定任务的性能。结合文本复述技术的事件类型判定方法研究同一篇章中通常包含多个相同类型的事件,而承载这些相同类型事件的句子往往具有不同的文本表述。受限于事件抽取语料的数据稀疏及分布不平衡现象,针对同一个类型的事件,基抽取系统往往会“遗漏”部分结果。因此,通过文本复述技术识别出具有相同语义的句子,以此来扩充基系统的事件类型判定结果。本章实验了在不同的“种子事件”选择策略下,结合文本复述技术,将种子事件的信息传播到复述文本中,以提高事件类型判定任务最终性能。深度与主动联合学习的事件类型判定方法研究以监督学习为基础的事件抽取方法受制于训练语料规模小、类别分布不平衡和质量稂莠不齐的问题,同时,传统的基于特征工程的事件抽取方法往往会产生错误传递的问题,且特征工程较为复杂。因此,本章节提出了联合深度学习和主动学习的事件类型判定方法。该方法将Jordan-RNN模型对事件类型判定的置信度融入在主动学习的查询函数中,以此在主动学习过程中提高训练语料的“标注”效率,进而提高事件类型判定的最终性能。
其他文献
电力行业作为国民经济组成中的重要部分,在经济、社会发展中都充当着关键角色。对于电网企业来说,通过建设以及完善输变电工程项目,才能保证电力保障工作的顺利进行,输变电工程的质量与电力供应能力有着直接关联,输变电工程即通过多次转换电压,来保证远程电力供应,为企业以及居民提供生产或生活中所需的电能。如何在达到项目质量目标的基础之上,使项目建设成本最低化是电力基建项目亟待解决的问题。输变电工程项目综合评价即
随着我国教育体制改革的不断推进,我国的高等教育获得了长足的发展,大学毕业生人数不断攀升,为我国社会主义现代化建设提供了大量优秀的要才。但是由于大学毕业生越来越多,而大学生的就业资源有限,因此,大学生就业状况越来越严峻。目前我国正处于社会主义市场经济不断完善和发展的重要阶段,提高大学生的创业创新能力,既有利于我国大学生就业压力的缓解,同时也符合我国建立创新型国家的具体要求。在此背景下,开展大学生创业
知识经济时代,企业之间的竞争日趋激烈,人才资源已成为企业保持竞争优势的重要保障。新员工作为企业的新生力量,其能力、知识和技能等将是企业未来核心竞争力的重要组成要素。然而,近年来新员工“闪辞”事件频发。究其原因,面对职场压力,新员工不适应或者不能融入组织环境而导致离职。因此,如何对压力进行管理,使新员工更快地适应组织环境和工作角色成为管理者需要思考的核心问题。实践表明,新员工主动社会化行为有助于使新
标签传播作为一种基于图的半监督分类方法,由于其算法效率高和性能优越,近年来受到了研究者们的广泛关注,但现有方法仍存在以下不足。首先,模型使用的度量标准对噪声或异类数
区间综合监控系统(后文简称为QJK)适用于区间采用继电编码的自动闭塞区段(含单线双方向自动闭塞区段),以及半自动闭塞、自动站间闭塞区段,具有站间安全信息传输功能、区间方向控制功能、区间占用逻辑检查等功能。因为QJK目前的使用已经深入全国各地铁路运输线路,且QJK的软件失效可能会引发重大安全事故,造成巨大的财产和生命损失。因此QJK软件的可靠性评估显得尤为重要。目前,针对QJK软件的可靠性评估流程,
随着计算机技术的飞速发展,数据挖掘逐渐成为人们关注的焦点。数据挖掘中常用的算法就是关联规则挖掘算法,其中以Apriori算法最为经典。首先,对数据进行采集和预处理,算法通
近年来,信号处理领域的快速发展和封装工艺的提升实现了对大数据量的高效处理。尤其是在人工智能方面,信号处理带宽的日益增加使得传统的数据总线逐渐无法满足大数据量和强实
集成电路的飞速发展使得单芯片上晶体管密度和工作频率变得越来越高,而多核技术的快速发展使得单芯片上集成的核的数目在日益增多,3D NoC被视为高效的多核互联途径。随着晶体
近几年,随着多核微处理器技术以及集成电路技术的发展,CPU的性能每年增长接近60%,而存储器存取延迟每年仅改善7%。存储器访问带宽和延迟导致的“存储墙”问题成为制约计算机
多轴重型导弹运输车辆行驶工况复杂,对越野性能与机动性能要求很高。轮毂电机驱动车辆,对传统车辆驱动技术进行了大规模的革新,在改变车辆传统结构型式的同时,引入了更多的行