论文部分内容阅读
关系抽取任务作为自然语言处理问题中重要的一环,旨在从非结构化的文本中抽取出实体以及实体之间的关系信息,并且以结构化形式储存在计算机中,或提供至下游的其它自然语言处理任务。基于机器学习的有监督方法是关系抽取任务的主流方法,然而模型的有监督学习需要大量的、特定领域的标注语料,现实场景中却极其缺乏,且人工标注的成本很高。远程监督方法在一定程度上能为模型的训练提供大量的标注语料,但因其假设过于强烈,使得标注信息中包含大量的噪声。尽管如此,由于远程监督能带来丰富的训练语料,所以在其基础上不断有新的探索方法,其中的多示例学习和注意力机制等代表性去噪方法,使模型在训练阶段能给予正确样本更高的权重,从而提升模型的鲁棒性。两种常用的远程监督去噪方法在关系抽取模型上很有成效,但两者仅对少量置信度高的样本分配较高的权重,相较于远程监督数据集的总体规模来说,样本利用率较低。
本文针对现有关系抽取问题中存在的不足之处,提出了两种用于去噪的关系抽取模型框架:(1)在训练阶段引入样本选择策略:在模型进行随机梯度下降的训练过程中,根据批中每个样本的损失函数值与梯度分布分配相应的权重,损失值较高的样本和梯度分布不均衡的样本皆视为含噪样本并分配较低的权重,使这些样本减轻对模型梯度更新的影响;此外,随着模型的训练迭代,样本的权重会动态变化,给予样本更加适当的权重;(2)采用连续学习方法:对给定的样本训练集,首先令其在模型上预训练,并根据样本选择策略中的自步-梯度机制,按照样本的计算权重值与闽值令训练集分成数个子集,子集具有不同的样本分布特征,而后按子集特征顺序依次训练模型;针对连续学习可能存在的遗忘问题,该方法在训练阶段引入插话式记忆复现机制,并且在模型的隐藏层与输出层之间叠加线性变换层,对样本在嵌入空间中的表示做正则化,使得不同训练阶段的样本嵌入表示差别较小,有效地保留前阶段模型学习到的样本特征分布。
为了验证上述的两种关系抽取算法框架的实际效果,本文在关系抽取领域中广泛使用的多个数据集上进行实验。实验结果显示,两种方法对于远程监督的关系抽取任务,与传统的关系抽取去噪方法相比,在性能上皆有所提升,且对于非远程监督关系抽取数据集,两种方法也有一定的提升。此外,本文中所叙述的关系抽取算法在TAC2018DDITrack取得了最高的准确率,并且应用于知识中心项目的药物相互作用关系抽取API提供。
本文针对现有关系抽取问题中存在的不足之处,提出了两种用于去噪的关系抽取模型框架:(1)在训练阶段引入样本选择策略:在模型进行随机梯度下降的训练过程中,根据批中每个样本的损失函数值与梯度分布分配相应的权重,损失值较高的样本和梯度分布不均衡的样本皆视为含噪样本并分配较低的权重,使这些样本减轻对模型梯度更新的影响;此外,随着模型的训练迭代,样本的权重会动态变化,给予样本更加适当的权重;(2)采用连续学习方法:对给定的样本训练集,首先令其在模型上预训练,并根据样本选择策略中的自步-梯度机制,按照样本的计算权重值与闽值令训练集分成数个子集,子集具有不同的样本分布特征,而后按子集特征顺序依次训练模型;针对连续学习可能存在的遗忘问题,该方法在训练阶段引入插话式记忆复现机制,并且在模型的隐藏层与输出层之间叠加线性变换层,对样本在嵌入空间中的表示做正则化,使得不同训练阶段的样本嵌入表示差别较小,有效地保留前阶段模型学习到的样本特征分布。
为了验证上述的两种关系抽取算法框架的实际效果,本文在关系抽取领域中广泛使用的多个数据集上进行实验。实验结果显示,两种方法对于远程监督的关系抽取任务,与传统的关系抽取去噪方法相比,在性能上皆有所提升,且对于非远程监督关系抽取数据集,两种方法也有一定的提升。此外,本文中所叙述的关系抽取算法在TAC2018DDITrack取得了最高的准确率,并且应用于知识中心项目的药物相互作用关系抽取API提供。