【摘 要】
:
技术旨在利用计算机处理海量数据的优越性,对文档中的信息进行有效归纳提炼,从而得到一段概括全文的摘要,这在互联网信息爆炸时代可以有效地解决信息过载问题,同时提高人们的工作效率。受益于Seq2Seq模型的发展,生成式摘要方法取得了瞩目的成绩,成为新的研究热点,但目前仍然存在两个挑战:第一,由于摘要长度的限制,模型生成的摘要应该在较短的篇幅内覆盖原文更多的重要信息;第二,生成的摘要应该更具新颖性,即包含
论文部分内容阅读
技术旨在利用计算机处理海量数据的优越性,对文档中的信息进行有效归纳提炼,从而得到一段概括全文的摘要,这在互联网信息爆炸时代可以有效地解决信息过载问题,同时提高人们的工作效率。受益于Seq2Seq模型的发展,生成式摘要方法取得了瞩目的成绩,成为新的研究热点,但目前仍然存在两个挑战:第一,由于摘要长度的限制,模型生成的摘要应该在较短的篇幅内覆盖原文更多的重要信息;第二,生成的摘要应该更具新颖性,即包含更多新颖的词句,而不是仅仅拷贝原文的词句。针对上述两个挑战,本文基于传统的Seq2Seq神经网络模型,对生成式摘要方法进行了深入研究,设计了一个关注主题的指针模型(Topic-aware Pointer Model,TPM)。具体来说,TPM模型将挖掘出的文本主题信息作为先验知识融入模型的注意力机制和指针机制中,提高了模型对文本的理解能力,使生成的摘要覆盖原文更多的重要信息;同时主题信息的加入也让TPM模型更关注那些没有出现在原文中,但是和原文主题相关的词汇,从而提高摘要的新颖性。除此之外,在TPM模型训练阶段,本文还提出一个新的主题相关性损失函数(Topic Relevance Loss,TRL),用于提高生成摘要与原文的主题相似性。最后,本文在真实的科研数据集上进行对比实验,实验结果及分析表明,相比于现有的生成式摘要模型来说,融入主题信息并在训练阶段应用主题相关性损失函数的TPM模型进一步提升了ROUGE评测得分,同时模型生成的摘要可以覆盖科研文档更多的关键信息,和科研文档的原文有着更高的主题相似性,并且更具新颖性。
其他文献
陕北方言中有为数不少的分音词,这成为它词汇上的又一个重要特点.据初步调查,陕北方言中可录出十四个分音词,按词性可分为两类.这些分音词在声、韵、调的组合等方面有共同的
第一章 总则$$第一条 为了治理货物运输车辆超限超载,保护人民群众生命和财产安全,保障公路安全畅通,根据《中华人民共和国公路法》、《中华人民共和国道路交通安全法》等有关
高压直流输电线路发生电晕放电时,周围空间会充满带电离子,从而使空间电场显著增强。为了准确计算地面合成电场,基于有限元和有限体积法提出一种计算直流输电线路合成电场的
目的:探讨聊城市产妇产后抑郁状况及影响因素。方法:采用一般调查表、爱丁堡抑郁自测量表、汉姆顿抑郁量表、艾森克个性问卷及社会支持评定量表,对聊城市人民医院、第二人民医
我国大学章程面临的实施困境主要表现为:章程价值没得到普遍认同,对章程实施存在认识误区,高校重"形式上的制定"而轻"实践中的实施"。基于政策执行视角分析可见,大学章程文本
目的研究肝细胞生长因子(HGF)与2型糖尿病(T2DM)心脏自主神经病变(CAN)相关性。方法选取2010年1月-2012年6月我院收治的72例T2DM患者,根据蹲踞试验结果将其分为:A组(SqTv与SqTs正常)、
网络流行语“智商税”,又称“低智商税”,指购物时由于缺乏判断能力而花了冤枉钱,这种行为被认为是缴了智商税;后又引申指因为自己缺乏判断力、智商不够用而付出的代价。“智商税
目的:探讨新生儿病理性黄疸的相关治疗研究。方法选自2011年1月至2013年1月在我院门诊确诊的新生儿黄疸271例病例进行对胸部的检查。分析新生儿黄疸与感染性肺炎的相关性。结
伴随着迅速的技术创新和经济全球一体化的到来,战略联盟逐渐成为企业获得竞争优势的重要战略途径。然而战略联盟在快速发展的同时还面临着高失败率,其关键原因是联盟中存在着
章程的生命力在于实施,然而目前我国多数大学章程实施状况总体不佳,存在执行风险。本文分析了教育部前两批核准高校的章程实施概况,厘清当前我国大学章程实施现状及原因,提出