论文部分内容阅读
近年来,随着生物医学文献的快速增长,生物文献中的信息抽取技术已经得到广泛的研究,目前为止,生物医学文献信息抽取中的大部分工作都涉及到关系抽取。生物领域中的关系抽取主要集中于从生物医学文本中识别出生物医学实体名称(蛋白质、药物、疾病、基因等),进而提取生物实体之间的语义关系。本文主要研究疾病-病症、病症-治疗物质和蛋白质关系抽取,提出了基于半监督学习和深度学习的方法分别解决实体抽取过程中存在的缺少标注语料集和人工特征构建的问题。为了解决在疾病-病症和病症-治疗物质关系抽取中缺乏语料集的问题,本文采用Co-Training和Tri-Training两个半监督学习的方法构建疾病-病症模型和病症-治疗物质模型。在训练过程中使用特征核、图核和树核作为Co-Training和Tri-Training方法的输入视图。在Tri-Training的训练过程中采用组合学习的方法将分类器集成在一起。实验结果表明,Co-Training和Tri-Training方法都可以利用未标注语料集在初始语料集少的情况下提升训练性能。并且在实验中Tri-Training方法的性能要优于Co-Training方法。使用半监督学习方法进行疾病-病症和病症-治疗物质关系抽取时,需要构建大量的人工特征,这些特征的质量直接影响实验结果。而且大量人工特征的构建既费时又费力。针对这个问题,本文提出了基于卷积神经网络的疾病-病症和病症-治疗物质关系抽取的方法。该方法可以从输入语料中自动学习特征,获取特征的层次结构,降低人工构造特征的成本。同时本文使用Tri-Training的方法扩充语料集。实验表明与Tri-Training方法相比卷积神经网络的方法可以获得更好的实验结果。使用半监督学习方法进行关系抽取时存在两个方面的问题,一方面,半监督学习方法在未标注语料选取时选用分类器标注一致的样本,这将损失掉一部分信息。另一方面,在未标注样本加入训练集的过程中,这些样本可能会被标注错误。为了解决这两个问题,本文提出了基于改进的Tri-Training进行蛋白质关系抽取的方法。该方法在对未标注语料选取时选用三个分类器标注最不一致的样本。并使用主动学习的方法对所选取的样本进行标注。在AIMED语料集上实验取得了68.80%的F值,实验结果表明该方法和其他方法相比具有较好的性能。