基于改进的transformer模型的文本摘要技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:alpaalpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代快速发展,信息呈爆炸式增长趋势,人们阅读和处理信息的速度已跟不上信息的增长速度。如何高效地从海量信息中提取重要信息,并将其应用到实际场景中已成为目前亟待处理的问题。自动文本摘要技术是一种生成高度概括源文本中语句的方法,该技术可以有效改善信息过载情况。目前自动文本摘要技术大都基于编码器-解码器结构来研究,编码器的输入序列有长度限制,如果输入序列过长,通常会删除过长部分,但这会导致输入序列损失部分原文信息。RNN及其变体是用于构建编码器的主流方法,但其具有序列性,很难并行处理文本序列,训练效率不高。同时该框架生成的摘要存在很多重复序列以及OOV词(未出现在词表中)。针对上述问题,本文提出一种两阶段框架,综合抽取式和抽象式文本摘要技术来完成摘要生成任务,并在CNN/Daily Mail和Wiki How两种不同类型数据集上进行实验,实验结果表明,该框架在文本摘要问题中表现优秀。本文主要研究内容如下:1)本文基于带有标题的文章设计一种监督式句子排序模型。基于自注意力机制构建编码器,从不同层面提取句子和文章标题相匹配的特征,获取句子可用于生成摘要的概率。根据概率对文章句子重排,为摘要生成模型提供输入文本。同时保留编码句子得到的向量,作为摘要生成模型输入词的嵌入向量。2)本文设计一种非监督式的句子排序方法。通过对句子中单词的词向量进行加权求和得到句向量,并基于句向量间的语义相似度来构建有权图,运用语义级别Text Rank算法对文章中的句子排序。3)本文基于Transformer模型研究摘要生成任务,使用时间惩罚机制改进连接编码器和解码器的注意力机制,并在解码器最后一层运用指针网络控制摘要生成模型以一定概率从原始文章中提取单词作为候选摘要词。
其他文献
家事案件作为与社会关系、伦理道德联系最为紧密的一类案件,在法律规定存在模糊、空白的情况时,将根植于当地人民群众价值意识之内的家事习惯引入案件处理过程中,能够充分发挥其化解矛盾、平息纠纷的作用。笔者希望通过研究将已成为家事纠纷解决中不可或缺的一环的家事习惯总结规律价值,发挥其在维护公序良俗方面的积极作用,为今后的司法实践提供更好的帮助,维护社会和谐稳定。本文首先介绍家事习惯在家事案件中运用研究的目的
美国是中国紧密来往的贸易伙伴,中美双边贸易成就更为显著。2018年中美双边货物贸易达到6335.2亿美元,中美贸易顺差达到3233.2亿美元。美国以贸易保护为由对中国不断加征关税和发起贸易救济调查,至2018年美国对华反补贴案件有82起,是对中国使用反补贴救济手段最多的国家,引发强大的示范效应。且反补贴救济手段不仅针对企业行为,还涉及政府,由产品直接联系到中国的补贴政策和外贸政策,进而影响外贸环境
碳化硅(SiC)具有宽禁带、高击穿电场、高热导率和高饱和漂移速度等特性,是适宜制备功率器件的优异半导体材料。Si C MOSFET器件是适用于高压、大功率应用的第三代功率半导体器件,但是,目前Si C MOSFET器件的沟道迁移率和可靠性差强人意,这主要是因为热氧化生长的二氧化硅(SiO2)与Si C界面具有高密度的界面和近界面陷阱。本文希望探究栅介质层改善工艺,以期获得高质量的4H-Si C M
近年来,风力发电在电力系统中的发电份额越来越大,风电反调峰和不确定性引起调峰困难加剧,特高压直流参与远距离风电外送是解决风电就地消纳空间不足的重要手段。含直流联络线的调度优化涉及不同区域,电网调度机理更加复杂,优化模型规模更大,存在区域电网间协调困难、同步计算困难等问题,制约了风电的跨区消纳。因此,研究如何统筹直流联络线与源、荷多种调度资源参与跨区协调,促进系统安全、经济、清洁运行具有实际意义。本
七元环嵌入的稠环芳烃由于其动态结构、电子结构特性、芳香性和丰富的堆积模式等,引起了科学家越来越多的关注。缺陷七元环构建单元不仅在共轭骨架中引入负曲率的曲面结构,且因其缺陷性质调控了分子的物理性质,并在有机半导体材料、发光材料和刺激-响应材料中逐渐展示出应用潜力。然,共轭体系中精准构筑七元环的难度仍然比较大,受限于立体选择性的环化方法。此外,七元环嵌入的多环芳烃的种类较少,限制了其物性的深入研究。在
汉语指人词缀是汉语词缀的重要组成部分,也是缅甸汉语学习者的学习难点之一。本文对缅甸语和汉语中的指人词缀进行了对比研究,主要研究了缅甸语的前缀“(?)”与类后缀(?)(?)的意义,在意义上相当于汉语的“-者”、“-鬼”、“-家”、“-师”、“-员”、“-长”、“-手”、“-星”、“-汉”、“-迷”、“阿-”。根据两种语言的对应关系,本文将这11个词缀分为四个类型。本文在汉缅指人词缀对比分析的基础上,
油水乳化液作为一种环境友好型的润滑剂,常应用于高承载与强冲击的润滑设备。齿轮是机械设备的重要基础件,在齿轮传动中添加合适的润滑剂,能有效抑制齿轮过度磨损,进而保证齿轮传动精度。基于混合模型和乏油润滑机制,建立考虑表面张力和乏油程度的油水乳化液润滑模型。研究乳化液含油量参数、齿面材料参数、运行参数(载荷与卷吸速度)、齿轮几何参数(模数、压力角与变位系数)对直齿轮传动中油水乳化液润滑特性的影响。最后计
集成电路系统的高速发展对热管理材料提出了更高的需求,其中柔性导热纳米复合材料可应用于柔性电子器件热管理、电子封装材料和柔性电路板等领域,吸引了众多研究者的关注。柔性导热纳米复合材料由导热纳米填料与高分子材料复合而成,能够实现传统散热材料很难达到的柔韧性与功能性的高度集成。石墨烯与氮化硼是具有优异导热性能的二维无机功能导热填料,有望与各种高分子材料复合制备出柔性导热高分子纳米复合材料。但是将高含量的
近年来,我国政府为实现教育均衡发展,满足人民群众对保质保量学前教育激增的需求,鼓励和支持民办幼儿园蓬勃有序发展而出台系列相关政策,主要用于加大学前教育的投入力度,提高普惠性学前教育资源的供给效率。在这样的背景下,云南省昆明市针对普惠性民办幼儿园制定了具体的奖补政策,由市级层面下的县级政府开展普惠性民办幼儿园的奖补工作。因县级政府为政策的主要执行层面,涉及执行主体多,奖补效率易受经济水平及社会环境等
道路交通事故是人类死亡的重要原因,经过近年来的车辆安全的快速发展,车辆的耐撞性能得到了长足进步,但也客观造成了车辆前部结构设计差异化越来越大。研究人员把事故统计中不同车内乘员损伤存在明显差异的现象称之为车辆的碰撞不相容,并且这个现象在事故统计中表现得越来越突出。如何在保证车辆的耐撞性前提下提高车辆的碰撞相容性已经成为车辆安全研究的重要课题之一。在2018年Euro-NCAP发布的MPDB试验规程中