基于深度学习的文本摘要相关技术研究及应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:officerkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来伴随着信息爆炸的风险,如何快速、准确地从互联网上海量信息中获取所需信息已成为亟待解决的问题。自动文本摘要技术将文本中的核心内容提取出来并生成简洁的描述,是解决信息过载的有效方法。近几年,深度学习的快速发展给自动文本摘要带来新的思路,生成式文本摘要方法应运而生,这种方法生成的文本可读性更强且容易理解。目前,基于深度神经网络的文本摘要方法多采用编码器-解码器结构,编码器生成源文本的语义表示,解码器用于生成连续可读的摘要序列,但这种方法存在生成未登录词、生成序列重复、原始语义表示不充分等问题。针对这些问题,本文在基于深度神经网络上的文本摘要方法进行探究,提出一种基于随机集束搜索的序列到序列的摘要生成方法和基于语言模型的摘要生成方法,并将提出的方法在数据集上进行实验,实验结果证实了模型的有效性。本文主要工作分成两部分,具体如下:(1)设计并实现一种基于增强语义和改进集束搜索的序列到序列摘要生成方法。主要内容包括:一种混合编码结构,通过门限卷积网络来捕获原始文本的近距离上下文信息,得到上下文的语义表示,随后利用双向循环神经网络学习文本的长距离依赖信息和时序信息;一种随机集束搜索算法,该方法在传统集束搜索上引入随机性,使得解码序列的多样性,在每个解码时间步随机集束搜索不再使用top-k采样来选择k个候选项,而是在一个动态置信空间内随机采样k个候选项;一种源文本关键词重排序算法,使用tf-idf加权对源文本序列中的每个单词进行评分,然后结合注意力分布列表来评估候选句的质量,而不是像标准波束搜索那样只选择概率最大的候选序列。(2)设计并实现一种基于语言模型的生成式文本摘要方法。该方法抛弃了传统的序列到序列框架,直接将文本摘要任务建模为语言模型问题并探究了这种方式的可行性。主要内容包括:利用Transformer解码器对任务进行建模,并在预训练语言模型GPT上进行微调,之后对Transformer的掩码方式进行改进,并对实验结果进行分析和对比。
其他文献
针对某防空导弹电源系统故障复杂的现状,设计了防空导弹电源故障诊断系统。介绍了系统的主要设计思想,给出了硬件结构与软件流程。该系统已投入实际应用,并取得了良好的效果。
从石膏的水化及硬化原理出发,通过添加有机物和无机物对石膏粉进行改性,并以石膏为基体,讨论了石膏与各种加强材料所形成的复合材料的抗压及抗折性能,从而寻找一种新型材料以
遵循工程教育专业认证的成果导向、以学生为中心、持续改进三个基本理念,结合自动化专业的基本情况对应专业认证所要求的新的课程体系及达成度评价体系,对实践教学环节的内容
新形势下,国家对农林类应用型本科高校教师的能力和素质就有较高要求。博士作为刚进入教学和科研领域的新人,需要学校营造良好的氛围帮助其专业化发展,顺应学校和国家要求。
前不久闭幕的十届全国人大四次会议批准的我国《国民经济和社会发展第十一个五年规划纲要》(以下简称《纲要》),是今后五年我国经济和社会发展的纲领性文件,指明了今后五年以及更
在问及石油究竟是怎样生成的之前,我们必须先问一问:石油是什么?什么是石油,我们不妨用这样一句话来表达:“石油是地下岩石中生成的、液态的、以碳氢化合物为主要成分的可燃性矿产
由学校、企业和科学研究院通力协作的产学研合作教育,是一种提高学生综合能力、实践能力及创新能力的教育模式,这种模式是将理论学习能力与实际操作能力统一相结合并培养学生
本研究对云纹石斑鱼(Epinephelus moara♀)×鞍带石斑鱼(Epinephelus lanceolatus♂)杂交后代利用植物血球凝集素(PHA)及秋水仙素通过活体注射法制作染色体标本。选用头
计算能力是小学生应具备的基本技能,也是学习数学的基础。然而,学生口算薄弱、算理模糊、习惯不好等诸多因素导致了学生计算能力的现状并不乐观。教师在教学中应针对这些问题,通
<正>近日,河南省物流协会受省主管部门委托,将对行业内“非典”时期的经营管理情况进行调研,评估“非典”造成的影响,预测市场发展趋势,为省政府决策提供依据。
会议