多层次表达的事件抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：WSFLTS

【摘要】

：

在当今信息化时代下,信息抽取技术帮助人们从海量数据中获取信息、理解信息。事件抽取是信息抽取领域中的一个重要的子任务,旨在从无结构化文本中抽取出有结构的事件。事件的

【作者】

：

秦彦霞

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

事件抽取社交网络框架事件表示字符信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当今信息化时代下,信息抽取技术帮助人们从海量数据中获取信息、理解信息。事件抽取是信息抽取领域中的一个重要的子任务,旨在从无结构化文本中抽取出有结构的事件。事件的表达方式是指系统采用不同事件表示单元展示事件的方式,例如,由单词组成的集合或预先定义好的事件模板。事件的表达方式影响着事件的可理解性,即人们是否能够从抽取出的事件表达中获取完整的事件信息。本文主要研究了事件的多层次表达方式对事件的可理解性的影响,具体包括基于短语级、子句级、文档级、多文档级事件表示方法。(1)提出了一种基于多特征分类过滤的事件抽取方法。基于片段的事件抽取方法是当前主流方法之一。片段是对社交网络文本进行切割得到的短语级表达单元,大多是实体和常见短语。和传统的基于单词的事件抽取方法相比,基于片段的方法具有同样高的效率,还具有更高的事件可理解性。针对候选事件中难以区分热点话题和新闻事件的问题,本文提出采用融合多特征的新闻事件分类方法替代现有的基于统计值的新闻度排序方法。基于统计值的方法不足之处在于:只能考虑较少特征,牺牲召回率以获得高准确率。本文考虑了和候选事件相关的文本对于新闻事件过滤的作用,并定义了一系列特征对候选事件的统计信息、社交信息和文本信息进行建模。实验结果证明,相比于基于统计值的方法,本文提出的基于多特征分类的新闻事件过滤方法在提高准确率的基础上,显著提高了召回率。(2)提出了一种基于主谓宾三元组框架的社交网络事件抽取方法。由单词、短语组成的集合表示的事件属于扁平化的表示,事件表示单元之间相互独立,缺少单元之间的结构信息。本文提出采用子句级的事件表示单元(框架)进行事件抽取。框架定义为子句中包含主谓宾短语的三元组。框架中的短语结构信息表示了子句的深层语义信息,能够帮助理解事件。本文首先对社交网络文档进行浅层语义分析,然后通过开放式信息抽取方法进行框架抽取。实验结果表明,基于框架的事件抽取方法提高了准确率,事件可理解性好。(3)提出了一种基于文档级时序特征的事件抽取方法。基于文档的事件表达包含完整的事件信息、事件可理解性由于基于单词、短语的表达。社交网络数据规模庞大、基于词袋模型的文档表示向量空间消耗巨大限制了基于文档的事件抽取方法的发展。受当前词向量表示技术的启发,本文采用低维实值向量表示社交网络文档以减少时间、空间消耗。针对文档稀疏导致无法计算文档级时序特征以用于区分新闻事件和无意义话题的问题,本文提出将单词级统计时序特征扩展为文档级时序特征。本文将文档的r近邻文档定义为其语义相似文档,以便于计算文档的语义频率,进而解决文档稀疏问题。然后,本文定义了基于文档语义频率的文档级时序特征,并和其他统计特征一起用于新闻事件过滤。实验结果证明基于文档级时序特征提高了基于文档的事件抽取方法的准确率。(4)提出了一种基于混合表示模型的中文神经网络事件抽取方法。本文采用模板表示事件,模板元素可以在多个文档中抽取。基于模板的表示不但包含完整事件信息,而且表达方式更简洁。由于中英文的差异,现有的基于神经网络的英文事件抽取方法直接应用于中文事件抽取任务效果不好。本文提出基于混合表示模型的中文事件抽取模型以解决中文事件抽取中的特征工程问题和未登录词问题。首先,本文采用两个循环神经网络分别学习词语的词语级表示和字符级表示,并拼接得到词语的混合表示。词语的混合表示能够一定程度上缓解中文数据集中未登录词表示问题。其次,本文采用卷积神经网络学习针对当前触发词-论元的块级别特征,以用于论元角色分类任务。最后,本文利用共享参数的方法进行事件检测和论元角色分类的联合学习,以减少错误级联。实验证明,本文提出的基于混合表示模型的中文事件抽取方法显著的提高了准确率。

其他文献

四轮转向车辆建模与转向稳定性研究

四轮转向(4WS)技术作为提高车辆操纵稳定性和行驶安全性的有效控制方式之一,已经受到越来越多的关注和研究。大量研究和实车测试表明,4WS技术在改善车辆低速转向灵活性,提高高速行驶安全性方面有着显著优越性。基于此,本文以四轮转向车辆为研究对象,旨在研究影响四轮转向车辆操稳性的因素,探寻四轮转向更好的控制策略和控制方法,主要研究内容如下:(1)根据牛顿第二定律和牛顿力学矢量体系,建立二自由度、三自由度

学位

四轮转向模糊PID联合仿真时滞粒子群优化(PSO)

末制导段宽幅毫米波成像及定位方法研究

毫米波雷达因其良好的分辨能力与抗干扰性能被广泛应用于精确制导武器系统,利用成像探测、弹体定位等关键技术,可实现制导武器对战略目标的快速精确打击。然而,严重的大气衰

学位

末制导宽幅成像多普勒参数估计几何失真校正弹体定位

针灸治疗单纯性肥胖临床偶得

单纯性肥胖也叫原发性肥胖，大多数为生活行为疾病，表现为暴饮暴食、饥饿、活动少，日积月累而为肥胖病。笔者通过5年多对肥胖病的治疗与观察，发现很多患者在减肥的同时，都有意外的

期刊

针灸肥胖病临床报道

试析红色文化资源对青年大学生“三观”的影响及接受机制

红色文化资源以其自身特有的内质,蕴涵着丰富的革命精神和厚重的人文历史内容,具有鲜明的时代性、历史性、教育性和民族性等特点,因此具有很高的教育价值,是实现青年大学生思

期刊

红色文化资源大学生三观

西南地区三种胁迫条件下玉米转录组分析及胁迫响应基因功能研究

植物在生长发育过程中需要抵御复杂多样的生物及非生物胁迫,如营养胁迫、重金属胁迫、真菌病害胁迫,而胁迫往往同时或接连发生,甚至存在一定的相互作用。植物在长期进化过程

学位

玉米RNA-Seq低氮胁迫重金属镉禾谷镰刀菌差异表达基因OPRPR1

基于copula的混业经营下市场风险和操作风险的度量

混业经营指的是各金融行业(包括商业银行以及其它类型的金融企业)之间进行多种业务、多个品种、多种方式的交叉经营以及服务。虽然相对于其他国家来说,我们国家在混业经营或

学位

混业经营市场风险操作风险copula分组模型极值理论蒙特卡罗模拟Bootstrap

中医药治疗艾滋病患者CD4+计数变化的影响因素回顾性分析

目的:探索中医药干预艾滋病患者CD4+计数与人口学资料、感染途径、分期、HIV病毒的相关性。方法:采用回顾分析方法,对服用中医药治疗满6月以上者,观察治疗前后CD4+计数与人口

期刊

中医药治疗艾滋病CD4+计数影响因素回顾性分析

教育部科技司负责人就《教育信息化十年发展规划(2011-2020年)》答记者问

3月13日,国家教育部印发了《教育信息化十年发展规划（2011-2020年）》（以下简称《规划》）。就此,记者采访了教育部科技司有关负责人。

期刊

教育信息化《教育信息化十年发展规划(2011-2020年)》教育部科技司十年发展答记者问

CaO在污染底泥中的稳定效果研究及改良

向受重金属污染的底泥中分别添加CaO、Ca(OH)2和CaO与膨润土混合的改良稳定剂,通过振荡脱附和淋溶试验,评价CaO和CaO与膨润土混合的稳定剂对重金属的稳定效果和影响因素。试

期刊

CaO膨润土河道底泥重金属污染稳定化

大学英语教师信息化教学能力培养策略

随着科学技术的不断进步,英语的教学方式也逐渐的发生着改变,至今信息技术的使用已经逐渐成为英语教师授课必备的手段之一,众多的大学英语教师开始使用信息化技术进行教学,以

期刊

英语教师信息化教学能力培养策略

多层次表达的事件抽取方法研究

其他学术论文