基于深度学习的多实体关系识别及自动文本摘要方法研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:zifeng20060819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系识别和自动文本摘要作为目前信息抽取领域的两个典型应用被越来越多的学者所关注。其中,实体关系识别任务是从文本中识别出实体词及实体词间的关系,但目前的研究大都针对简单场景展开,如一句话只包含一个关系的情况,而鲜有对复杂场景的深入探讨。自动文本摘要任务通过对输入文本进行语义分析形成摘要来提高用户的阅读效率,但目前针对自动文本摘要的研究仍然面临较多挑战,包括生成摘要的可读性差、生成摘要和原始文本的核心内容不符、生成摘要中重复元组较多等问题。针对上述两个任务存在的问题,本论文提出了基于多标签技术的多实体关系识别方法用以处理复杂场景的实体关系识别任务;提出了基于累积注意力机制的自动文本摘要方法在生成摘要的可读性、与原文内容相关度等指标上进行提升,具体包括如下三点工作:(1)提出了一种新的基于多标签技术的多实体关系识别方法,以提升在复杂场景下的实体关系识别性能。该方法结合新的多标签损失函数和Sigmoid损失函数来共同训练网络,使得在多标签分类过程中引入更多的标签关联信息,同时针对样本不平衡问题进行权重优化以提高模型的学习能力。本论文在实体关系识别公开数据集NYT上进行了实验论证,结果显示本论文方案相较现有方案在实体关系识别的多个指标上都有提升,尤其在实体关系三元组识别的F1值上有显著提升;(2)提出了一种新的基于累积注意力机制的自动文本摘要方法,以提升在生成摘要可读性、与原文相关性等指标上的性能。该方法整体基于编解码框架,引入指针网络并结合了本论文提出的累积注意力机制、采用覆盖度损失和集束搜索规则限制,使得模型具备生成和抽取的能力,以提升输出摘要的可读性、与原文相关性。本论文在自动文本摘要任务公开数据集CNN/DailyMail上进行了实验,结果显示本论文模型相比现有生成式监督学习模型在各项指标上都有所提升;(3)基于上述两个模型,本论文基于Django Web框架搭建了在线演示平台,实现接收用户输入,在线调用模型并获得输出,返回实体关系识别模型以及自动文本摘要模型得到的三元组结果及摘要结果展示给用户,并对模型的输出信息进行解释分析。
其他文献
<正>为推进研究生思想政治理论课(以下简称"思政课")教育教学改革,进一步提高研究生思政课的教学水平,教育部研究生思政课分教学指导委员会2014年第三次工作会议暨"马克思主
以钇钡铜氧化合物为代表的第二代高温超导材料具有高临界磁场、高临界温度、高电流密度等本征物理优势.第二代高温超导材料的超导电性自被发现以来,便受到了世界范围内的广泛
本文通过市场占有率、净出口指数、显示比较优势指数三项指标对我国茶叶出口的国际竞争力作了定量测算 ,并从单产、品质、价格、技术四个方面进一步指出了我国茶叶出口国际竞
试验通过比较普通橡胶材料胎面轮胎和聚氨酯材料胎面轮胎的垂直刚性、纵向刚性和横向刚性,并通过进一步分析比较普通橡胶胎面材料和聚氨酯胎面材料的物理性能,研究不同胎面胶
由人类免疫缺陷病毒(HIV)感染而引起的艾滋病(AIDS)是目前医学界难以治愈的顽疾之一。以逆转录酶(RT)为靶点是开发抗艾滋病毒药物的热点。本文第一章综述了二芳基三嗪(DATA)和二氢烷
模仿人的决策过程,提出了一种模糊自适应变权重组合预测算法。算法通过各个单项预测算法在过去和最近时期与实际观测值的匹配程度自动地调整权重的分配,是一种变权重组合预测算
内燃机设计正朝着高速、轻型、大功率的方向不断发展。随着人们对高性能、轻量化、低成本及高市场适应能力发动机的不断追求,对发动机可靠性设计和减振降噪等方面的研究变得
近日,兰州市公安局西固分局刑侦三大队通过内查外调,上网追逃等侦查措施,成功破获1起合同诈骗案,抓获犯罪嫌疑人1起.9月12日,兰州市公安局西固分局刑侦三大队接受害人报案称,
作为一个在化工、能源、高科技领域处于一个国内领先地位的工程公司而言,成达工程公司在发展过程中面临很多新的挑战,例如目前国内传统市场日益饱和;另外在化工领域每年投资