基于卷积神经网的实体关系抽取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gloriayl2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代,信息呈现爆炸式的增长,人们淹没在数据中,却难以获得想要的知识。在这种背景下,信息抽取技术应运而生,其主要目的是自动化地将半结构化或非结构化的文本数据转化成结构化数据。实体关系抽取是信息抽取技术的核心内容,主要负责从自然语言中获取实体对之间的语义关系类型,具有重要的研究价值和广阔的应用前景。  针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力,现有基于深度学习的方法依赖单一词向量的表征能力问题,提出了多通道卷积神经网模型,并在此模型基础上融合传统语言学特征。  论文的主要工作如下:  1、使用卷积神经网模型进行实体关系抽取。传统关系抽取方法需要使用自然语言处理工具提取特征,特征集的选取和组合是一项费事费力的工作,并且多个特征的抽取容易造成误差的累积。基于卷积神经网的方法可以自动学习特征,近年来在实体关系抽取任务中取得了很好的抽取效果,并得到了广泛的关注;  2、针对现存基于卷积神经网的关系抽取方法依赖于单一词向量表征能力的问题,提出多通道卷积神经网模型。该模型使用不同的词向量将输入映射到不同的通道,从而综合不同词向量的信息,使网络具有更强的表征能力。在SemEval-2010Task8数据集上的F1值比普通模型提高了2个百分点,表明多通道卷积网模型适合用来处理关系抽取任务;  3、将传统语言学特征与多通道卷积神经网模型进行融合。深度学习和传统自然语言处理方法之间不是完全割裂的,传统语言学特征是人类对语言认知过程中产生的抽象表达,可以作为先验知识加入到神经网络中。本文将传统特征加入到多通道卷积神经网模型中,在SemEval-2010 Task8数据集上的F1值提高了6.6个百分点。
其他文献
随着遥感技术的发展,线阵CCD遥感影像得到广泛应用。而原始遥感卫星影像没有地理信息,只有经过处理具有一定精度的地理位置信息后才能被正确应用。在遥感影像的生产过程中,需要
TD-LTE是中国自主提出的3G标准TD-SCDMA的后续演进,得到了国家的大力支持。但目前终端已经成为TD-LTE产业化进程的最大瓶颈。终端测试作为保障终端研发和生产的重要环节,意义
目前世界上已报道的绦虫有4000余种,有近半数种类的绦虫寄生于鱼类。大量海洋鱼类尚未被调查,同时许多绦虫之间的系统发育关系亦尚不清楚。本文作者正是针对这些问题而开展研究
为提高传输过程中的抗干扰性,在下传前,卫星数据均要进行信源编码和格式编排处理,因此卫星信号落地后需要进行去格式处理。一方面,卫星下行数据快速去格式处理技术能够客观、及时
随着视频压缩性能和网络传输可靠性的提高,视频业务已经越来越普及。同一视频网站的内容由通过不同的传输系统进行传输并且由不同的终端进行处理已经成为一种趋势;不同带宽的用
摘要:随着全球化的不断深入,世界各国间的联系越来越紧密,英语作为一门全世界通用的语言,在世界各国的经济、政治、文化交流中起着越来越重要的作用。近年来,拥有良好的英语基础是新一代学生们必备的素质之一,广大专家和学者们也越来越意识到了对学生们英语能力培养的重要性,对英语教学给予了高度关注。职业教育学校中大部分学生毕业后会选择直接就业,因此英语学习对其未来的就业竞争力也是十分重要的,但现实生活中职业教育
合成孔径雷达(SAR)是主动式微波成像设备,是利用信号处理技术以小的真实孔径天线达到高分辨率成像的雷达系统,由于其在民用和军事方面的应用,越来越受到广泛的关注。近年来随着
面对市场经济的快速发展,作为电信运营企业,只有不断提高服务质量,提高用户满意度,才能够留住客户,同时吸引更多的新客户,故保持较高的网络运行质量成为了企业正常运行并取得
实测数据表明,内容分发已经成为宽带移动通信网络的最主要应用之一。随着内容流量需求的激增,如何尽量提高通信网络的整体利用率并降低单位数据内容的消费成本是亟待解决的问题。个性化内容主动分发和内容赞助是解决该问题的有效途径。前期研究表明,内容主动分发有助于提升网络利用率,改善网络性能;内容赞助有助于降低用户的流量资费,提升内容提供商的收入。在现有文献中,考虑两种方法的结合及其对网络负载影响的研究还较少见
学位
目前,航天、航空合成孔径雷达(SyntheticApertureRadar,SAR)均已具有高分辨率图像获取能力,SAR图像的目标识别和内容解译成为了各国学者的研究热点。但是SAR图像复杂的成像机理