论文部分内容阅读
随着互联网时代的到来,在数据与算力的双重加持下,深度学习引发的人工智能浪潮席卷全球,为了让计算机做到对语言的精准理解,需要赋予其大量的先验知识,这些知识主要以结构化知识进行表示。可是与现实世界快速增长的知识量相比,结构化知识的覆盖度仍未赶上。为解决这个问题,研究人员使用实体关系抽取算法自动抽取文本中蕴含的知识,但在非英文环境下,由于数据量和文本表示的问题,算法的抽取结果与英文算法的抽取结果间存在巨大差距。为了消除语言间的差异,目前方法多采用参数迁移,标注投影等启发式方法进行跨语言信息抽取,这些方法没有考虑语言间的差异,且多数需要给定严格的限制以保证效果。针对不同语言实体关系抽取模型之间的性能差距大,现有方法在语言间信息迁移效率不高的问题,本文探究高效的跨语言信息抽取技术,取得的主要成果有:1、基于反向注意力机制的命名实体识别:该方法反向采用翻译模型的注意力权重进行信息迁移,将预训练的高资源语言命名实体识别模型提取的特征用于低资源语言命名实体识别。翻译模型注意力权重的对齐信息相比于人为标注更加精确,并且对齐信息的对称性可以将预训练模型中得到的任务相关特征迁移到源语言,从而丰富原始数据的语义表示。在多种不同语言的经典数据集上的实验结果表明,该方法可有效提升模型对单一语言的命名实体识别效果,特别在标注数据有限的数据集上提升更为明显。2、多语言分段卷积神经网络:该方法通过多语言的语言模型将多种语言映射为同一空间的词向量,再分别通过卷积抽取每种语言的特征,之后使用分段最大池化得到双语特征,最后利用双语特征进行关系识别。这种方法有效利用了不同语言间语义的互补性和知识的一致性。该方法在人工标注数据集与远程监督数据集上均表现出比之前方法更好地性能,证明该方法能有效融合双语特征。综上,本文针对实体关系抽取技术在不同语言间存在性能差距的问题,研究了跨语言的迁移学习、联合学习方法。最后,希望本文可以对跨语言信息抽取研究提供一定的参考和帮助。