多层次表达的事件抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:WSFLTS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息化时代下,信息抽取技术帮助人们从海量数据中获取信息、理解信息。事件抽取是信息抽取领域中的一个重要的子任务,旨在从无结构化文本中抽取出有结构的事件。事件的表达方式是指系统采用不同事件表示单元展示事件的方式,例如,由单词组成的集合或预先定义好的事件模板。事件的表达方式影响着事件的可理解性,即人们是否能够从抽取出的事件表达中获取完整的事件信息。本文主要研究了事件的多层次表达方式对事件的可理解性的影响,具体包括基于短语级、子句级、文档级、多文档级事件表示方法。(1)提出了一种基于多特征分类过滤的事件抽取方法。基于片段的事件抽取方法是当前主流方法之一。片段是对社交网络文本进行切割得到的短语级表达单元,大多是实体和常见短语。和传统的基于单词的事件抽取方法相比,基于片段的方法具有同样高的效率,还具有更高的事件可理解性。针对候选事件中难以区分热点话题和新闻事件的问题,本文提出采用融合多特征的新闻事件分类方法替代现有的基于统计值的新闻度排序方法。基于统计值的方法不足之处在于:只能考虑较少特征,牺牲召回率以获得高准确率。本文考虑了和候选事件相关的文本对于新闻事件过滤的作用,并定义了一系列特征对候选事件的统计信息、社交信息和文本信息进行建模。实验结果证明,相比于基于统计值的方法,本文提出的基于多特征分类的新闻事件过滤方法在提高准确率的基础上,显著提高了召回率。(2)提出了一种基于主谓宾三元组框架的社交网络事件抽取方法。由单词、短语组成的集合表示的事件属于扁平化的表示,事件表示单元之间相互独立,缺少单元之间的结构信息。本文提出采用子句级的事件表示单元(框架)进行事件抽取。框架定义为子句中包含主谓宾短语的三元组。框架中的短语结构信息表示了子句的深层语义信息,能够帮助理解事件。本文首先对社交网络文档进行浅层语义分析,然后通过开放式信息抽取方法进行框架抽取。实验结果表明,基于框架的事件抽取方法提高了准确率,事件可理解性好。(3)提出了一种基于文档级时序特征的事件抽取方法。基于文档的事件表达包含完整的事件信息、事件可理解性由于基于单词、短语的表达。社交网络数据规模庞大、基于词袋模型的文档表示向量空间消耗巨大限制了基于文档的事件抽取方法的发展。受当前词向量表示技术的启发,本文采用低维实值向量表示社交网络文档以减少时间、空间消耗。针对文档稀疏导致无法计算文档级时序特征以用于区分新闻事件和无意义话题的问题,本文提出将单词级统计时序特征扩展为文档级时序特征。本文将文档的r近邻文档定义为其语义相似文档,以便于计算文档的语义频率,进而解决文档稀疏问题。然后,本文定义了基于文档语义频率的文档级时序特征,并和其他统计特征一起用于新闻事件过滤。实验结果证明基于文档级时序特征提高了基于文档的事件抽取方法的准确率。(4)提出了一种基于混合表示模型的中文神经网络事件抽取方法。本文采用模板表示事件,模板元素可以在多个文档中抽取。基于模板的表示不但包含完整事件信息,而且表达方式更简洁。由于中英文的差异,现有的基于神经网络的英文事件抽取方法直接应用于中文事件抽取任务效果不好。本文提出基于混合表示模型的中文事件抽取模型以解决中文事件抽取中的特征工程问题和未登录词问题。首先,本文采用两个循环神经网络分别学习词语的词语级表示和字符级表示,并拼接得到词语的混合表示。词语的混合表示能够一定程度上缓解中文数据集中未登录词表示问题。其次,本文采用卷积神经网络学习针对当前触发词-论元的块级别特征,以用于论元角色分类任务。最后,本文利用共享参数的方法进行事件检测和论元角色分类的联合学习,以减少错误级联。实验证明,本文提出的基于混合表示模型的中文事件抽取方法显著的提高了准确率。
其他文献
四轮转向(4WS)技术作为提高车辆操纵稳定性和行驶安全性的有效控制方式之一,已经受到越来越多的关注和研究。大量研究和实车测试表明,4WS技术在改善车辆低速转向灵活性,提高高速行驶安全性方面有着显著优越性。基于此,本文以四轮转向车辆为研究对象,旨在研究影响四轮转向车辆操稳性的因素,探寻四轮转向更好的控制策略和控制方法,主要研究内容如下:(1)根据牛顿第二定律和牛顿力学矢量体系,建立二自由度、三自由度
毫米波雷达因其良好的分辨能力与抗干扰性能被广泛应用于精确制导武器系统,利用成像探测、弹体定位等关键技术,可实现制导武器对战略目标的快速精确打击。然而,严重的大气衰
单纯性肥胖也叫原发性肥胖,大多数为生活行为疾病,表现为暴饮暴食、饥饿、活动少,日积月累而为肥胖病。笔者通过5年多对肥胖病的治疗与观察,发现很多患者在减肥的同时,都有意外的
红色文化资源以其自身特有的内质,蕴涵着丰富的革命精神和厚重的人文历史内容,具有鲜明的时代性、历史性、教育性和民族性等特点,因此具有很高的教育价值,是实现青年大学生思
植物在生长发育过程中需要抵御复杂多样的生物及非生物胁迫,如营养胁迫、重金属胁迫、真菌病害胁迫,而胁迫往往同时或接连发生,甚至存在一定的相互作用。植物在长期进化过程
混业经营指的是各金融行业(包括商业银行以及其它类型的金融企业)之间进行多种业务、多个品种、多种方式的交叉经营以及服务。虽然相对于其他国家来说,我们国家在混业经营或
目的:探索中医药干预艾滋病患者CD4+计数与人口学资料、感染途径、分期、HIV病毒的相关性。方法:采用回顾分析方法,对服用中医药治疗满6月以上者,观察治疗前后CD4+计数与人口
3月13日,国家教育部印发了《教育信息化十年发展规划(2011-2020年)》(以下简称《规划》)。就此,记者采访了教育部科技司有关负责人。
向受重金属污染的底泥中分别添加CaO、Ca(OH)2和CaO与膨润土混合的改良稳定剂,通过振荡脱附和淋溶试验,评价CaO和CaO与膨润土混合的稳定剂对重金属的稳定效果和影响因素。试
随着科学技术的不断进步,英语的教学方式也逐渐的发生着改变,至今信息技术的使用已经逐渐成为英语教师授课必备的手段之一,众多的大学英语教师开始使用信息化技术进行教学,以