论文部分内容阅读
航空安全报告数据量大,篇幅较长,且涉及民航生产的方方面面,全部阅读并理解这些报告需要丰富的专业领域知识和较长的报告阅读时间,人力和时间上的投入较大。本文尝试研究基于深度学习方法的自动文本摘要技术,并将其应用于航空安全报告的自动摘要生成,可以节省大量人力去做读写工作,在一定程度上减少了工作时间,也解决了人工生成摘要成本高的问题。本文基于生成对抗网络和强化学习方法,对解决文本自动摘要生成问题进行了研究,系统总结了常用自动文本摘要模型,提出了两种生成方法。主要研究工作如下:1、针对有监督的深度神经网络方法,在航空安全报告生成中存在错误累积,生成摘要准确率低等问题,提出一种基于强化对抗思想训练的文本自动摘要生成模型。通过将生成对抗网络鉴别器作为强化学习的奖励函数及时指导生成模型优化,尽量避免错误累积;通过在航空安全报告生成过程中加入目标指导特征,帮助摘要生成模型获取更多文本结构知识,提升摘要生成模型真实性。在合成数据和航空安全报告数据集上的实验结果表明,该方法在航空安全报告自动摘要生成任务中,较之前的摘要生成模型在准确率和可读性上有了进一步的提高。2、针对基于强化对抗思想训练的模型,在面对航空安全报告这种长文本摘要生成任务中,存在信息丢失、摘要和原文关联性低的问题,提出一种基于循环生成对抗网络的文本摘要生成模型用于航空安全报告文本摘要生成任务中。该模型在加入目标指导保证文本结构严谨的基础上,使用循环生成对抗网络的方式通过循环一致性约束来保障生成的摘要保留报告原文信息,增强生成的摘要和报告原文的关联性,从而解决强化对抗思想训练的摘要生成模型的信息损失问题。最终生成的摘要既结合了原文的无损信息又保证了文本结构的严谨性。在长短文本摘要生成任务上的实验结果表明,该方法在航空安全报告的自动摘要生成任务中,较之前的文本摘要生成模型效果有了进一步的提高。