基于指针生成网络的文本摘要方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:suuuper4w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当下互联网硬件和软件的快速发展,大量的APP或者网页产生了大量的文本信息数据,人工处理这些文本信息的方式越来越难以胜任时代的发展。如何快速的从大量杂乱无序的文本中,提取出简短准确有用的信息,已成为当下急需研究的课题。近些年的研究成果之一就是自动文本摘要,使用计算机来处理这些文本信息。自动文本摘要是从大量相同主题的文本中提取出关键信息生成简短摘要的方法。人们可以快速的获取关键信息而无需阅读整个文档,它帮助人们节省了大量时间。目前自动文本摘要在生成方式上,主要分为抽取式和生成式。这些模型都能提取出文本的部分关键信息来生成摘要,但是生成的摘要会出现未登录词,句子重复,偏离原文本语法语义等问题。通过增强对原文本语法语义信息的提取以及对标准摘要的语法语义信息的提取,提升了模型对文本信息的理解。使用指针网络和覆盖机制的思想,降低了摘要的句子重复问题与未登录词问题。主要研究工作如下:1.本文提出了基于BERT的多头自注意力机制的指针网络模型,通过多头自注意力机制模型增强对原文本内在信息的关注,使模型能够更精确的把握原文本的语法结构和语义信息。同时使用软注意力机制,利用人工标注的标准摘要与原文本进行映射进行特征提取。融合两种注意力机制的上下文信息,使模型能够提取出原始文档的内部结构和语义特征信息。改进覆盖机制,减弱句子和词的重复问题。2.本文提出了基于BERT和增强解码器的指针网络模型。使用Transformer模型的解码层思想,代替LSTM和软注意力机制,增强模型在训练阶段对标准摘要的语法语义特征提取。使得生成的摘要在词和语法语义上更接近于标准摘要。3.根据文本提出的文本摘要模型,设计并且实现文本摘要系统。使用Flask Web框架,为用户提供了输入短文本信息或者上传短文本信息的方式,快速生成简短摘要,并将结果在网页上展示出来。
其他文献
绘画是一项古老的技术,可以追溯到旧石器时期,古猿人用绘画的形式来记录生活。随着人们物质生活的提高,绘画作品往往用来保存与传递作者所要表达的信息,与此同时它还给人们带来感官上的享受。绘制某种特定风格的图像需要具有一定绘画技术,而刻意去学习绘画技术往往需要耗费大量的时间和经历。图像风格迁移作为图像处理领域的一个分支任务,它可以在短时间内将一张普通照片转换成某种艺术风格的图像。风格迁移技术能够节省了使用
学位
桥梁是城市交通系统中重要的组成部分,一旦发生事故往往将造成极大的经济损失,甚至人员伤亡。因此,需要对桥梁进行定期检测与维护,及早发现桥梁病害以防止出现严重的桥梁坍塌事故。目前,桥梁表观病害检测主要采用人工检测的方式,然而基于人工的桥梁病害检测方式存在主观因素大、劳动强度高、自动化程度低等缺点。随着桥梁数量的进一步增长,基于人工的检测方式已经无法满足实际工程应用的需求,因此迫切需要研究更加高效、智能
学位
报纸
一直以来,建立一个能够和人类正常交流的对话系统是研究者们追求的终极目标,情感对话生成任务和对话中的情感识别任务都是达成这一目标的重要研究方向。目前情感对话生成模型已经能够生成包含情感的语句,但是语句的情感表达强度不够,在指定情感的情况下,生成语句的情感准确率还是无法满足现实需求。目前对话中的情感识别任务处于起步阶段,在近几年才开始受到重视,情感识别的准确率也处于一个较低的水平,准确识别对话中的情感
学位
人体姿态估计是近年来计算机视觉领域的主流研究内容,在人机交互、电影制作、监控安全和互联网领域有广阔的应用前景。当前人体姿态估计方法在困难任务中的表现仍不尽如人意,大多数方法使用图像的全局上下文信息来预测关键点,忽略了关键点之间的关联性信息,容易导致网络负迁移学习。其次,人体姿态估计作为一项基础性研究,缺少一套完善稳定的软件系统将其应用于后续研究中。针对以上问题,本文引入了信息论中的相关性理论,将关
学位
空间异质性是指因地理位置和时间的变化而引起的变量间关系或结构的变化,主要表现为时空非平稳性。城市用地扩张及其驱动因子表现为强烈的时空非平稳性,通过动态建模方式深入揭示这一特性,能帮助我们更好地理解城市变化的动态过程。分区建模可有效解决数据驱动的元胞自动机(Cellular Automata,CA)耦合模型中对用地转换规则的局部特征学习不充分的问题,以减小空间异质性对模拟结果的影响。针对城市群空间扩
学位
濒危动物监测是野生保护研究的重要手段之一,但常规的监测手段需要大量人工干预,不利于全时监测的开展。因此,发展智能化的濒危动物监测系统成为迫切需要,而构建高效的目标检测模型是其中的关键所在。然而,由于濒危动物数量和分布都有典型的稀疏性,导致濒危动物图像样本的极度匮乏。若直接采用稀疏样本进行训练,模型会出现严重的过拟合,难以正常工作。如何利用极少量濒危动物样本进行学习,就成为濒危动物智能监测需要关注的
学位
近年来,随着自然语言处理领域的快速发展,事件抽取作为自然语言处理领域非常重要的基线任务展现出了颇高的学术价值以及研究价值,因而吸引来了众多的国内外科研工作们的关注。目前大部分事件抽取相关研究是基于英文文本进行的,基于中文文本事件抽取的研究工作相对较少。事件抽取任务可分为句子级事件抽取与文档级事件抽取。句子级事件抽取相对比较容易,主要是因为句子级文本的长度相对较短,并且所描述的语义信息比较集中。对于
学位
传统回归任务是指使用一组输入变量来预测单个连续变量,而多目标回归旨在使用一组输入变量同时预测多个连续目标变量。尽管在多目标回归方面取得了很大进展,但仍然存在三个具有挑战性的问题,即如何建模输入特征和输出目标之间的潜在关系,如何探索输入间的潜在关系以及如何探索目标间的依赖关系。本文围绕这三个挑战性问题展开研究,提出了两种有效的多目标回归算法,主要研究内容如下:1.提出了一种学习本地局部实例关联的多目
学位
近几年,随着移动电子设备和智能手机的迅速普及,基于位置的社交网络(Location-based Social Network,LBSN)为基于位置的研究带来了大量用户签到数据,使位置预测领域取得重大突破。通过现有的预测模型可以预测出人们的出行模式、访问位置、某个特定地点的访问量和访问人员,以往难以做到的服务在如今都随着技术的进步和数据的丰富而变得易如反掌。道路规划、拥堵控制、广告投放和人流控制,这
学位