基于深度学习的文本摘要生成系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wangzhijun9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本摘要生成是自然语言处理领域的子任务之一,主要是根据原始文本,生成该段文本的摘要。目前传统做法是使用序列到序列模型将文本转换为摘要,这种方法生成的摘要不能十分贴合语义,并且生成的摘要不连贯。而通过使用深度学习进行预训练的方法可以获得更加贴合原文思想、也更加连贯的摘要。一般使用BERT(Bidirectional Encoder Representations from Transformers)模型进行预训练然后使用序列到序列模型生成摘要,但是其存在两阶段输入不一致的问题,并且存在对文本语义理解能力不足的问题,此外生成的摘要仍然不够贴合人类书写习惯。本文研究基于深度学习的文本摘要生成模型系统及其实现,首先在预训练阶段使用XLNET模型以克服使用BERT模型存在的缺点。本文进一步对在XLNET预训练模型的基础上对生成摘要方法进行改进,解决生成文本摘要仍然会存在未登录词和重复词问题,并且语义理解可以进一步提升。本文的主要研究内容和成果如下:1)将XLNET应用于文本摘要生成任务中进行文本摘要生成。现在的主流摘要生成方法是使用BERT进行预训练,而本文的XLNET与BERT不同,在输入阶段并不对文本进行排列组合,而是在微调阶段进行。它在Transformer内部通过attention mask矩阵实现,即通过双流注意力机制得到不同的组合与排列。这种做法可以让模型训练充分融合上下文特征,克服了 BERT模型在预训练阶段的带有掩码标志致使两阶段过程输入不一致的问题。2)设计新的模型FP-XLNET,此模型基于XLNET,首先使用TF-IDF(Term Frequency-Inverse Document Frequency)算法来提取文本中重要词汇,然后使用XLNET分别获得原文本与重要词汇的词向量,之后通过一层Attention得到词向量的注意力分布,而后使用指针网络生成最终摘要。此算法相比于传统算法,除了具有XLNET自身的优点外,使用TF-IDF提取核心词能够使得摘要更加贴合文本内容,并且较好的解决了未登录词和重复词问题。相较于传统算法,实验结果表明,验证本文模型ROUGE分数更高。3)根据FP-XLNET算法设计并实现了文本摘要生成系统。研究了文本摘要生成系统中各模块的技术选型,最终利用前后端技术搭建了一个文本摘要生成系统。针对一般字符串数据库ID查找效率低以及存储空间大的问题,本文数据库ID部分使用雪花算法减少了空间占用,加快了 ID查找速度。
其他文献
布匹疵点检测是纺织企业质量监控的重要过程。传统人工检测方法检测速度慢,对检测人员熟练程度依赖高,难以保证检测精度,已无法满足当今布匹疵点大规模检测的需求。近年来随着计算机视觉技术的发展,采用计算机视觉技术进行布匹疵点检测已经成为趋势。传统的计算机视觉技术基于疵点的特征进行检测,只能实现疵点图像的定性分析,无法自动化精确定位疵点产生的位置。而基于人工智能方法的计算机视觉技术具有检测速度快,检测效率高
阅读媒介的多元化在给学生带来阅读便利的同时,也对学生的媒介素养、跨媒体阅读能力提出了更高的要求。在高中语文阅读教学中,教师需切实提升自身的跨媒体阅读指导能力,通过构建形式多样的跨媒介阅读活动来强化对学生的跨媒介阅读训练,切实提高学生利用多种媒介获取信息的能力,增强学生的信息素养和媒介素养。文章指出,构建基于跨媒介阅读的高中语文课,是教师构建顺应时代潮流的高中语文课堂、优化学生课堂阅读体验的有效方法
脉诊是中医四诊之一。桡动脉手腕脉搏被证明是有关人体心血管系统的丰富信息来源。本研究提出了一种新型脉冲采集系统的设计,该系统使用具有耐用且灵活的传输结构的光纤布拉格光栅(FBG)传感器3x3+1阵列,以实现更好的灵敏度并消除FBG之间的串扰。所提出的设备原型采用具有九个自由度的机械和电子硬件设计,以实现更准确的脉冲检测。该设备旨在模拟实际医生基于三指九象理论(TPNI)进行的脉搏,以同时检测三个不同
<正>世界最著名的三大芭蕾舞剧相信大家都知道,它们分别是《天鹅湖》《睡美人》和《胡桃夹子》。可是你知道吗?这3部经典芭蕾舞剧的作曲均出自一人之手,他就是俄罗斯著名作曲家柴科夫斯基。柴科夫斯基(1840-1893)是俄罗斯著名的浪漫派作曲家,被誉为伟大的"俄罗斯音乐大师"。因为他的音乐具有强烈的感染力,充满激情,乐章抒情又华丽,旋律优美而流畅,因此,他又被誉为"旋律大师" 。100多年来,芭蕾舞剧《
期刊
为了贯彻立德树人的基本理念,在综合活动课程中加入了小学信息技术教育,以此来培养学生的创新素养。STEAM理念的出现,给信息技术教学的开展创设了良好条件。本文主要描述了小学信息技术课程的内涵,探讨了STEAM教育的概念和特点,并对在小学信息技术课程中应用STEAM教育理念的方法提出一些个人的观点和看法。
乡村振兴是新时代中国特色社会主义建设的主要内容之一,更是巩固脱贫攻坚工作丰硕成果和实现全民族共同富裕的必由之路。乡村文化建设是乡村振兴的“铸魂工程”,发挥着基础性、长期性、引领性的作用,乡村振兴必须切实加强乡村文化建设,正确把握乡村文化振兴的科学要义、铸魂功能与面临的困境,在“护好乡风、紧扣乡情、守住乡土、荟萃乡贤”四重维度上探索创新路径,赋能乡村文化可持续发展。
自改革开放以来,大连高新技术产业园区作为国务院首批批准的国家级高新技术产业开发区,从1991年成立至今,曾经一度带领大连走向辉煌。但大连高新区作为辽宁沿海经济带的重点发展区域,仍有很多高新技术企业处于产业链低端。产品附加值不高、技术含量简单等传统外包行业的发展瓶颈成为制约大连高新区发展的重要问题。同时,受2020年疫情影响,全球经济面临着巨大的挑战,国内外产业园区纷纷认识到产业结构单一带来的风险,
本文主要讨论语文跨媒介阅读的目的和内容,并在此基础上进一步讨论跨媒介阅读背景下,高中语文阅读教学的相关问题。根据语文跨媒介阅读的目的和内容及跨媒介阅读的利弊,反思高中语文阅读教学存在的问题并提出相应的对策。
期刊
<正>糖尿病周围神经病变(DPN)是糖尿病最常见的并发症,也是最常见的神经系统疾病。DPN患者有多种表现,包括大神经纤维损伤引起的感觉丧失和肌肉无力,小神经纤维损伤引起的感觉迟钝、疼痛、麻木和植物神经症状。严重时,DPN还会导致剧烈疼痛和皮肤溃疡,甚至威胁患者生命。然而目前尚无批准用于治疗DPN的药物。
期刊
针对市场上灵巧手结构复杂、体积大等弊端,设计了具有欠驱动的三指智能灵巧手,实现一个电动机控制2个关节运动。可分别控制3根手指,能够适应异形物体抓取,机械自锁的结构可提高抓取可靠性。灵巧手内部集成多种传感器,可测量指尖力矩和关节运行角度,通过软件算法实现掉落感知、防脱落、防碰撞和人机协作等功能。在硬件方面设计了驱控一体板卡,大大缩小了灵巧手体积。经过两代样机研制,验证了智能三指灵巧手功能的可靠性。