论文部分内容阅读
实体关系识别和自动文本摘要作为目前信息抽取领域的两个典型应用被越来越多的学者所关注。其中,实体关系识别任务是从文本中识别出实体词及实体词间的关系,但目前的研究大都针对简单场景展开,如一句话只包含一个关系的情况,而鲜有对复杂场景的深入探讨。自动文本摘要任务通过对输入文本进行语义分析形成摘要来提高用户的阅读效率,但目前针对自动文本摘要的研究仍然面临较多挑战,包括生成摘要的可读性差、生成摘要和原始文本的核心内容不符、生成摘要中重复元组较多等问题。针对上述两个任务存在的问题,本论文提出了基于多标签技术的多实体关系识别方法用以处理复杂场景的实体关系识别任务;提出了基于累积注意力机制的自动文本摘要方法在生成摘要的可读性、与原文内容相关度等指标上进行提升,具体包括如下三点工作:(1)提出了一种新的基于多标签技术的多实体关系识别方法,以提升在复杂场景下的实体关系识别性能。该方法结合新的多标签损失函数和Sigmoid损失函数来共同训练网络,使得在多标签分类过程中引入更多的标签关联信息,同时针对样本不平衡问题进行权重优化以提高模型的学习能力。本论文在实体关系识别公开数据集NYT上进行了实验论证,结果显示本论文方案相较现有方案在实体关系识别的多个指标上都有提升,尤其在实体关系三元组识别的F1值上有显著提升;(2)提出了一种新的基于累积注意力机制的自动文本摘要方法,以提升在生成摘要可读性、与原文相关性等指标上的性能。该方法整体基于编解码框架,引入指针网络并结合了本论文提出的累积注意力机制、采用覆盖度损失和集束搜索规则限制,使得模型具备生成和抽取的能力,以提升输出摘要的可读性、与原文相关性。本论文在自动文本摘要任务公开数据集CNN/DailyMail上进行了实验,结果显示本论文模型相比现有生成式监督学习模型在各项指标上都有所提升;(3)基于上述两个模型,本论文基于Django Web框架搭建了在线演示平台,实现接收用户输入,在线调用模型并获得输出,返回实体关系识别模型以及自动文本摘要模型得到的三元组结果及摘要结果展示给用户,并对模型的输出信息进行解释分析。