【摘 要】
:
事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,
论文部分内容阅读
事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,为后续的事件抽取任务提供了准确度更高的数据,提升了训练模型的准确度。本文主要工作内容如下:1.为新闻文本的事件抽取难点提供解决方案。本文针对新闻文本与公告文本的不同举例进行了对比,分析新闻文本存在的特点,并针对其特点给出相应的解决方案。在此基础上根据事件抽取任务需求,对比选择出最适合该任务的深度学习模型,再使用新闻数据集测试该模型是否适用于处理新闻文本数据。2.构建了事件信息众包(crowd-sourcing)标注平台。该标注平台以人工标注的形式生成标注数据,同时为了解决人工标注的误差问题,本论文采用了众包中的质量控制方法以获取准确度更高的标注结果,为实现质量控制方法采取了一系列的措施,最后通过众包结果的聚合算法完成真实标签的选择。输出的数据*事件抽取模块监督学习的训练数据。3.实现了完整的事件抽取框架。框架的整个流程从数据收集开始,数据收集模块采用scrapy爬虫框架实现爬取脚本,以此获得互联网上的非结构化文本数据。使用Java和freemarker作为标注平台的前后端语言,结合Springboot框架进行众包标注平台的开发。最后选择了深度学习模型作为事件抽取方法。在框架的实现阶段使用标注平台生成的新闻文本数据进行训练,使用训练过程得到的模型文件进行事件的预测,至此实现完整的事件抽取流程。
其他文献
随着现代通信技术和网络技术的发展,无线传感器网络因其低成本、低功耗、短时延等优点,已经被广泛应用于国防安全、工业控制、环境监测等领域,具有广阔的市场前景。由于无线传感器网络的工作环境大都无法铺设电缆,造成无线节点资源受限,不能频繁得到能量补充,只能依靠能量有限的电池供电。因此,单个节点的使用寿命对整个无线网络的生命周期影响巨大,研究降低无线节点的能量消耗方法具有重要意义。针对无线节点能量受限问题,
事件触发(Event-triggered)或事件驱动(Event-driven)策略是一种新兴的传输或采样机制,以适应新兴系统中所要求的智能与协同特性。其主要思想是在数据传输或采样前端设置一种决策或判断机制,即仅对满足事件驱动条件的信息予以传输,以减少有限网络资源的非必要消耗。面对与以往有着天渊之别的数据吞吐量,该策略能够有效缓解网络带宽压力,实现资源的有效利用。事件驱动策略已经被利用于控制领域,
本论文研究了不同维度下纳米结构(零维、一维、二维)器件对气敏响应性能的影响,在研究工作中分别对薄膜型金属氧化物三氧化钨纳米片器件和单根,交叉金属氧化物二氧化锡纳米线器件进行气敏特性的测量。对薄膜型三氧化钨纳米片器件在不同老化天数下进行5 ppm H2S气敏性能的测试,灵敏度达到8,同一批器件的重复性和稳定性良好。气体敏感响应时间达5.5 s左右,气体敏感恢复时间24 s左右。同一批器件进行累计浓度
近年来,移动机器人的应用范围不断拓宽,被广泛应用于生产车间、餐饮服务、物流管理、日常生活等多种室内场景,因此对机器人自主性的要求也在不断提升。但室内的环境往往要比室外环境复杂得多,这对移动机器人自主导航性能提出了更大的挑战。自主导航包括路径规划和轨迹跟踪两个核心部分,但目前在路径规划的距离代价方面、轨迹跟踪的准确性等方面仍有较大提升空间。故本文中针对机器人自主导航过程中涉及到的路径规划和轨迹跟踪相
无线传感网是由大量传感器节点构成的,部署于有监测需求的区域内,用来监测紧急事件,从而评估事件的急迫性,以协调工作。传感器节点受其能量、通信、计算、存储以及部署环境恶劣等影响,通常会产生错误数据,使管理者无法做出正确决策。因此,在低能耗下对节点进行精准的故障检测是目前急需解决的问题。针对无线传感网中故障率高而导致检测精度低、能耗大问题,提出了基于时间序列与邻居协作的WSN故障检测算法。本文主要的内容
多机器人系统(Multi-Robot System,MRS)具有良好的自主移动性、灵敏性和强鲁棒性,能够很好的克服单机器人作业面临的瓶颈,被广泛的应用于工业生产的各个领域。多机器人系统如何协作完成智能工厂中高实时性的数据巡检任务一直是多机器人系统研究的热点,本文对多机器人系统协作进行数据巡检的任务分配及巡检任务所在车间的路径规划问题进行研究,合理的任务分配与路径规划不仅体现了多机器人系统的存在意义
矿山微震监测系统可以采集频率几赫兹到几千赫兹的多种震动信号,其包含的信息较为复杂,准确识别煤岩破裂的微震事件对于微震的定位及其震源机制的认识是最为关键的科学问题之一。微震事件的准确识别,决定了微震监测及预警技术的及时性和准确性。传统的微震事件识别方法大都需要人工手动提取特征,无法将分类器与特征提取过程相结合,过程繁琐复杂,而且多数都是浅层结构算法,对分类问题的泛化能力不强。深度学习模型被广泛运用于
元学习方法提出的初衷是为了解决标签样本量不足的问题,通过提前训练模型的初始化参数来加快模型的收敛速度。后续模型无关元学习(MAML)的出现更是显著提升了元学习思想的应用范围。一般以梯度下降法进行算法求解的模型都可以通过它来解决few-shot learning(小样本分析)问题。当前,元学习方法多应用于图片和自然语言处理场景,而化学材料数据分析也具有少样本、多任务的训练特性,属于较典型的小样本分析