论文部分内容阅读
互联网时代拥有极度丰富的文本数据,然而这些信息往往以非结构化的形式存储,无法得到更为有效的深度利用。关系抽取将非结构化的自然语言文本转为结构化信息,进而可以辅助实现知识库构建,语义推理乃至于多轮对话等更高层次任务。在实体识别和链接等前序步骤的基础上,关系抽取对自然语言文本进行识别,找到其中蕴含的语义关系,进而得到结构化的三元组信息,实现实体间关系的构建。本文提出了基于数据先验的卷积神经网络模型,主要贡献如下:1.综合使用多种训练数据,较好解决了关系抽取数据获取难的问题。基于少量的结构化知识库和大规模的非结构化语料库,本文使用远程监督方法自动生成训练样本。然而,远程监督本质上是一种无监督方法,其产生的数据往往包含很多噪声,本文使用预训练模型和规则筛选得到过滤样本。再结合少量的人工标注样本,本文最终使用了三种训练数据。2.针对不同来源数据专门构建网络,将数据先验融入网络参数。人工标注样本最为准确但数量有限,远程监督样本数量众多但含有噪声,过滤样本数量中等但具有一定偏差。针对不同类型的训练样本,本文创新性的构建多个网络,网络间结构相同且参数共享,使用后验概率正则化方法得到融入数据先验的后验概率。3.使用多实例学习方法融合多个网络,进一步降低噪声的不利影响。针对不同数据来源的多个网络,本文使用多实例学习方法,将多种来源下样本组合为包,并以包为单位进行网络参数更新。在模型学习时偏向于更高精度的人工标注样本和过滤样本,减少远程监督样本的噪声影响,从而显著提高模型的准确性和鲁棒性。基于数据先验的卷积网络较好的解决了关系抽取中数据获取难和数据噪声大的难题,描述本算法的论文也发表在了信息检索领域的顶级会议SIGIR 2017中,受到了海内外研究人员的广泛关注。对比实验表明,本文提出的算法在TAC-KBP数据集上获得了目前最好的效果,准确率比现有最好方法提升8%以上。同时,本文提出的算法也在知识库构建,中国工程科技知识中心项目和多轮对话等多个任务中得到应用,进一步说明了算法的有效性。