论文部分内容阅读
当今时代,信息呈现爆炸式的增长,人们淹没在数据中,却难以获得想要的知识。在这种背景下,信息抽取技术应运而生,其主要目的是自动化地将半结构化或非结构化的文本数据转化成结构化数据。实体关系抽取是信息抽取技术的核心内容,主要负责从自然语言中获取实体对之间的语义关系类型,具有重要的研究价值和广阔的应用前景。 针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力,现有基于深度学习的方法依赖单一词向量的表征能力问题,提出了多通道卷积神经网模型,并在此模型基础上融合传统语言学特征。 论文的主要工作如下: 1、使用卷积神经网模型进行实体关系抽取。传统关系抽取方法需要使用自然语言处理工具提取特征,特征集的选取和组合是一项费事费力的工作,并且多个特征的抽取容易造成误差的累积。基于卷积神经网的方法可以自动学习特征,近年来在实体关系抽取任务中取得了很好的抽取效果,并得到了广泛的关注; 2、针对现存基于卷积神经网的关系抽取方法依赖于单一词向量表征能力的问题,提出多通道卷积神经网模型。该模型使用不同的词向量将输入映射到不同的通道,从而综合不同词向量的信息,使网络具有更强的表征能力。在SemEval-2010Task8数据集上的F1值比普通模型提高了2个百分点,表明多通道卷积网模型适合用来处理关系抽取任务; 3、将传统语言学特征与多通道卷积神经网模型进行融合。深度学习和传统自然语言处理方法之间不是完全割裂的,传统语言学特征是人类对语言认知过程中产生的抽象表达,可以作为先验知识加入到神经网络中。本文将传统特征加入到多通道卷积神经网模型中,在SemEval-2010 Task8数据集上的F1值提高了6.6个百分点。