基于神经网络的两阶段文本摘要模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:fuiegfiusbkufbakuefg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与移动互联网的高速发展,网络中的数据呈爆发式增长,如何在缩小数据规模的情况下保留数据中的信息量变得尤为重要。为了更好地提取大量文本中的信息,自然语言处理领域提出了自动文本摘要生成任务。自动文本摘要通过计算机自动化地提取文本主要内容并进行压缩,从而帮助人们快速获取知识。的方法主要分为抽取式方法和生成式方法两种。抽取式摘要可以较为准确地提取原文中的要点,但是摘要句子的排序以及连贯性差是其存在主要问题。生成式摘要主要通过端到端的神经网络模型直接生成摘要,大量训练后生成的文本流畅性较强,但是由于这些模型都是黑盒模型,生成过程无法控制,难以准确涵盖原文要点。针对目前自动文本摘要方法存在的问题,本文提出了结合抽取式方法和生成式方法的两阶段模型,并提出了利用摘要句重要性评估理论模型改进抽取式方法与利用覆盖机制改进生成模型,从而提高模型效果。主要工作和贡献如下:(1)提出了神经网络模型与理论模型相结合的摘要抽取器,该方法首先利用卷积神经网络改进了神经网络句子分类模型,然后通过对分类模型得到的关键句子运用动态规划算法进行打分,最后将得分最高的摘要句子集合作为最终的摘要结果。(2)通过加入覆盖向量改进了基于多头注意力机制的生成模型,解决了多头注意力机制模型在摘要生成中容易忽略要点的问题。具体方法是,在生成模型的编码-解码多头注意力层的注意力计算中加入覆盖向量,记录模型已经解码过的内容和还未解码的内容,并在损失函数中增加了覆盖损失。(3)在CNN/Daily Mail数据集上验证了本文模型较其他模型的优越性,同时在中文科技论文数据集上进行了实验,验证本文模型对于中文长文本的有效性,其自动摘要的准确性在ROUGE-1的指标能够达到37.37,并且对中文摘要进行了人工评测。
其他文献
本文研究的内容是从川陕苏区时期红军在陕南的政权建设角度出发,旨在研究川陕苏区时期红军在陕南苏区进行的政权建设对中国社会主义革命做出的历史贡献,并总结其历史经验以及精神财富。川陕苏区是全国第二大苏区,其仅次于中央苏区,对于中国共产党来说,该地区建立的政权有助于共产党执政实践,其为中国共产党人学习实践奠定了基础,为共产党治国安邦奠定基础。在川陕苏区中,陕南苏区发挥了重要作用,其政权建设对中国近现代史产
该文是一篇英译汉翻译实践报告,翻译材料节选自Learning and Teaching Language Through Content:A Counter-balanced Approach(译为《基于内容的语言学与教—平衡教学法》)中的第三章。本章主要描述了学习者在一系列活动和实验中习得第二语言。研究和翻译此类教育专著的意义在于:一方面可以为教育学文本的翻译提供启示,另一方面,也为教育学专业的
随着我国整个交通行业的不断发展,桥梁工程的建设力度也随之增强。但是在桥梁结构整个寿命周期内,由于存在设计缺陷、施工质量不达标以及成桥后荷载作用和结构自身老化等,桥梁结构都不可避免地产生不同程度的损伤和缺陷。桥面板作为直接承受车轮压力的承重结构,在车辆荷载以及环境侵蚀等作用下,更容易遭到破坏。因此对桥面板进行快速准确的检测,可有效降低桥梁维护成本,提高桥面结构的耐久性和可靠性,保障桥梁正常运营。由于
社会的进步与发展使国内面临的社会形势发生巨大变化,提升公共管理部门公务人员的胜任力水平是加快我国现代化经济建设、实现科学发展的必然选择。在党和政府的高度重视和正
排列顺序是新HSK四级阅读部分的考试题型之一,是HSK改革后的新增题型,涉及的考点较为繁杂,不仅考察汉字和词语,还有语法和语义逻辑关系的理解,考生不容易把握,这也会影响他们的答题速度和正确率。在对搜集到的24套历年真题中排列顺序的题型和考点进行分析之后,总体归为关联词语类和无关联词语类两大方面,以便考生在了解分句意思的基础之上掌握句子之间的意义关系,发挥关键词语的提示作用,清楚考试的重难点。我们采
学位
学位
随着城市轨道交通的迅猛发展,人工冻结法已成为隧道联络通道中一种最为可靠安全的地层加固方法,而在冻结过程中土体产生的冻胀现象会对地下管线、地表建筑产生不利的影响,轻则增加工程成本,重则危及工程安全,造成无法挽回的损失。有鉴于此,有必要对在冻结过程中地层产生的冻胀现象进行更近一步的研究,本文以杭州地铁某联络通道冻结工程为背景,采用数值模拟与模型试验相结合的手段,深入研究联络通道冻结施工过程中地层内部的
随着民族共同体思潮的发展,越来越多的学者开始关注少数民族审美范畴,藏族作为我国极具民族特色的少数民族,其艺术类型多样,审美特征显著。研究其审美范畴对扩充我国审美范畴有着重要意义,一方面可以帮助我们对藏文化的内容有更深理解,更为重要的是还可以丰富我国民族审美范畴的种类,使中国审美内涵更加细腻、丰富的呈现。唐卡是藏族艺术中一种独具魅力的艺术形式,它具有鲜明的民族特色和审美风格,是藏文化重要的组成部分。
第五代移动通信系统(5th Generation Mobile Communication System,5G)的时代正在到来。依照国际电信组织(The 3rd Generation Partnership Project,3GPP)的工作进程规划,5G的第一研究阶段的第一版Rel-15标准已于2018年8月冻结。5G非独立组网的增强以及5G独立组网技术,也正在继续研究与推进中,以完全实现5G的技