自动文本摘要的若干问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:huan2735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的爆炸式增长加重了读者的阅读负担,想要便捷地找到需要信息变得十分困难。如何提炼文本的要点,帮助用户快速筛选所需信息成为一个重要而富有挑战性的研究课题。自动文本摘要(Auto-matic Text Summarization)技术作为自然语言处理领域的一个重要方向,旨在实现自动化地提炼文本的主要信息,生成简洁流畅的摘要来帮助读者快速了解文本的主要内容。近年来,随着大规模标注语料库的构建以及深度学习(Deep Learning)等关键技术的突破,自动文本技术取得了快速的发展。然而目前生成摘要与人工摘要仍有较大的差距,因为当前模型的信息理解能力不足,工作方式不够合理。本文从文本摘要领域的两个关键研究点展开研究:(1)如何设计合理的自动摘要模型的框架,从而提升文本摘要的质量?人类撰写摘要是一个相当复杂的过程,涉及到对文本内容的理解、重要信息的甄别整理、自然语言的生成。想要生成高质量的摘要,就必须合理地设计神经网络模型的工作框架,使之能够隐性或显性地完成上述的过程。本文通过研究人在撰写文本摘要过程的行为模式,设计出了两种新的文本摘要框架,显著地提升了文本摘要的质量。(2)如何建模文本信息的重要性,从而提升信息抽取的准确性?判断信息的重要性一直是文本摘要的核心任务,然而重要性是结合读者自身背景知识的主观感受,对于读者背景知识的合理建模以及基于背景知识的信息度量是建模文本信息的关键。传统方法多基于数据驱动的方式隐性地建模这一任务,缺乏理论支持,对于低资源领域不友好。本文结合信息论和预训练语言模型从理论角度对信息重要度进行了建模。针对以上两个关键问题,本文聚焦单文档新闻领域,从三个方面展开具体的研究,主要贡献总结如下:首先,本文的第一部分工作聚焦于文本摘要中的信息拷贝行为问题。通过研究模拟人类在撰写文本摘要时选择性地拷贝简洁语句只编辑冗余语句的特点,提出了拷贝-编辑机制(Copy-or-Rewrite Mecha-nism),允许模型对备选语句 自由地选择拷贝和编辑两种操作,在保证语句流畅的基础上提升了文本的信息度。其中我们引入了分层强化学习(Hierarchical Reinforcement Learning)的训练方法确保机器能够经过自我探索掌握拷贝-编辑的技巧。在多个数据集上测试结果证明我们的方法在自动评测和人工评测上都取得了更好的表现,摘要流畅性和信息性都得到了显著提升。其次,本文的第二部分工作关注文本摘要中的信息融合行为问题。通过模拟人类融合若干强相关的信息点以提升摘要简洁性的行为特征,我们对融合行为进行了建模。利用分割向量实现了对于句子的分组的效果。我们利用极大二人博弈(Maximax Two-player Game)强化学习训练使模型成功学习到了信息融合的模式。实验证明信息融合框架显著提升了生成摘要的简洁性并降低了语法错误。最后,本文在第三部分内容中量化了文本摘要中信息重要度的概念。我们利用预训练语言模型建模用户背景知识并结合信息论计算信息单元基于上下文的信息量,从一个全新的角度实现了信息重要度的建模。实验证明我们的方法较以往模型建模效果更好。
其他文献
滑坡是我国主要的地质灾害,严重影响国家经济建设和社会发展。由于物理力学过程的复杂性、影响因素的多样性等原因,现有滑坡分析方法存在明显的缺陷和不足,主要包括:(a)边坡稳定性分析的强度折减法采用拉格朗日有限元,网格畸变问题造成数值不收敛的失稳判定准则得到的安全系数不可靠;(b)对于渗流-应力耦合作用显著的降雨诱发滑坡,现有研究将失稳前后两阶段完全割裂并独立分析,未考虑物理状态发展的连贯性和一致性,(
学位
基于被动式质量和惯性元件的装置,如调谐质量阻尼器(TMD)和调谐粘滞质量阻尼器(TVMD)的优化设计中,需要将装置的固有频率调谐到靠近控制结构的基频。因此,优化设计中引入一种可以基于激励电流频率来调整其固有频率的装置可以显著地增加阻尼特性。优化设计将可以去除被动式装置的失谐效应,并能在更大的频率范围内实现高效振动控制。本文提出了两种新型的振动控制装置,该装置能够基于外部激励的频率来调整和控制其固有
学位
现代的测量技术中,光学相位测量由于其精度和可扩展性被广泛的用于军事、民用以及科研之中。随着科学技术的发展,人们对于相位测量的精度提出了更高的要求。在理想情况下该精度受限于散粒噪声。对于采用了量子资源比如压缩态、纠缠态等的量子测量,精度极限可以达到甚至超过海森堡极限。但是在实际应用中,影响相位测量精度的决定性因素往往是测量方法或是测量设备引起的各类技术噪声。尤其是微小相位的测量,会被淹没在这些技术噪
学位
现代战场电磁环境日趋复杂,对于雷达的探测能力以及目标识别与跟踪能力提出了更高要求,雷达系统朝着大带宽、分布式、多频段以及全相参等体制发展。雷达射频前端作为连接射频信号和基带信号的桥梁,完成信号发射和接收的关键任务,是雷达系统的核心部件之一。基于微波光子技术的雷达射频前端具有传输损耗小、频谱资源丰富、抗电磁干扰等特性,能够弥补传统射频前端器件的部分不足,在频段选择的灵活性、宽带信号处理能力以及分布式
学位
细粒度图像识别,又被称作子类别图像识别,是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类别识别,但由于子类别间细微的类间差异和较大的类内变化,较之普通的图像识别任务,细粒度图像识别挑战性更大。细粒度图像识别研究,从提出到现在,已经历了一段较长时间的发展。早期的基于人工特征的算法,基本都采用局部特征编码等方式来获取细粒度图像的特征表示,但由于特征的
学位
第二代高温超导带材以其在高磁场下高载流能力,高转变温度,高不可逆场等优势,在多种电学场景下具有较高的商业价值和应用前景。基于第二代高温超导带材的商业开发,主要集中在超导限流器、超导电机和储能装置等领域。第二代高温超导带材应用前景广阔,商业价值巨大。随着超导材料的广泛应用,高温超导体的力学研究越来越成为制约着超导科学技术应用推广的因素。高场工况下超导带材受到的洛伦兹力和环氧树脂浸渍下超导线圈受到的热
学位
无论是从经济还是从可靠性的角度来看,电力系统的暂态稳定评估(Transient Stability Assessment,TSA)都起着重要的作用。电力系统实际运行中需要能够保持其暂态稳定,并能够承受各种干扰,以便为用户提供可靠的服务。在当今的高维/时变系统中,由于输电系统常常运行在物理极限附近,维持系统安全稳定性成为了一个挑战。因而,在线暂态稳定评估的目的不再仅针对某一组特定的“预先检验的运行点
学位
电力设备中广泛应用的绝缘气体介质六氟化硫(SF6)具有强温室效应,研制环保型绝缘替代气体对于推动实现我国“碳达峰、碳中和”战略目标具有重要意义。目前,由于环保型绝缘气体液化温度较高,必须与缓冲气体混合后才能在电力设备中应用。研究三元混合SF6替代气体的绝缘性能和协同效应,可为替代气体绝缘介质的选取提供理论支撑,进而得到既满足电力设备绝缘和运行温度要求又环保安全的替代方案。论文通过玻尔兹曼方程计算了
学位
基于视觉的行为理解是一个重要的人工智能问题,但即使在蓬勃发展的深度学习时代,视觉系统理解行为的能力还远达不到应用需求。因此,研究视觉智能以实现高效、鲁棒的行为理解具有巨大的价值。不同于传统的深度学习范式,在本文中,我们旨在通过基于知识驱动的视觉推理来改善行为理解。首先,我们着重研究人-物交互(Human-Object Interaction,HOI)的检测。HOI 是一个组合学习问题,其长尾数据分
学位
高清视频等新型数据业务的兴起导致了数据中心相关的流量大幅增长,因此数据中心之间的短距光互联场景需要高速率和低成本的传输方案。相干传输系统受限于激光器难以集成的问题短期内无法有效降低成本,而直接检测系统无需接收端激光器,适应于硅基光子集成的趋势。因此,本文选择直接检测系统作为研究对象。针对高速率、低成本和高性能的直接检测系统这一目标,本文研究了如何使用数字信号处理(DSP)技术来实现高速复值信号的低
学位