基于关键字提取的文本摘要相关技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:mengxianshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据的到来,人们时刻面临着网络信息过载的问题,加之网络新闻中充斥着大量的“标题党”现象。因此,越来越多的人对文本摘要生成感兴趣。文本摘要技术属于自然语言处理领域,是利用计算机对原文内容进行分析,将关键含义提炼出来,形成简短文本的技术。近年来,大量学者们在文本摘要技术上有所研究,使之有了很大的进步,但依然面临着诸多挑战。本文针对抽象文本摘要方法中存在信息丢失以及未登录词等问题,研究自动关键字提取算法以及基于编码器与解码器框架的抽象摘要方法,并将关键字提取方法应用于文本摘要任务中,探索了引入关键字信息表征对抽象文本摘要任务的影响。第一,为了使关键字信息表征更加准确,本文针对TextRank方法中仅仅考虑单词共现度的局限问题以及单词初始重要性表征的不合理问题,并受到容错粗糙集可对语料库中语义、语法等进行深层次挖掘的启发,提出了一种基于容错粗糙集的自动关键字提取方法。在文本聚类任务实验中,将提出的改进方法与三个强基准进行比较,最后实验结果表明该方法优于基准模型,并且反映了将容错粗糙集理论融入关键字提取方法是合理和有效的。第二,本文针对文本摘要技术中存在关键信息缺乏以及暴露偏差等问题,将更加准确的关键语义信息引入到带有注意力机制的Seq2Seq模型上,提出了基于关键字提取的文本摘要模型。在训练阶段,采用Teacher Forcing方法更加有效地训练模型,缓解了暴露偏差问题。在测试阶段,利用集束搜索优化序列的生成效果,并结合了覆盖模式,解决了未登录词问题,提高了模型生成摘要的质量。在LCSTS数据集的文本摘要任务实验中,将生成摘要与参考摘要进行ROUGE自动评测,得到的ROUGE-1、ROUGE-2、ROUGE-L分数可以分别达到41.8%、27.9%、37.8%。最后实验结果验证了所提模型在文本摘要任务上的有效性,同时也表明了所提关键字提取方法有一定的实用性。
其他文献
传统回归任务是指使用一组输入变量来预测单个连续变量,而多目标回归旨在使用一组输入变量同时预测多个连续目标变量。尽管在多目标回归方面取得了很大进展,但仍然存在三个具有挑战性的问题,即如何建模输入特征和输出目标之间的潜在关系,如何探索输入间的潜在关系以及如何探索目标间的依赖关系。本文围绕这三个挑战性问题展开研究,提出了两种有效的多目标回归算法,主要研究内容如下:1.提出了一种学习本地局部实例关联的多目
学位
近几年,随着移动电子设备和智能手机的迅速普及,基于位置的社交网络(Location-based Social Network,LBSN)为基于位置的研究带来了大量用户签到数据,使位置预测领域取得重大突破。通过现有的预测模型可以预测出人们的出行模式、访问位置、某个特定地点的访问量和访问人员,以往难以做到的服务在如今都随着技术的进步和数据的丰富而变得易如反掌。道路规划、拥堵控制、广告投放和人流控制,这
学位
随着当下互联网硬件和软件的快速发展,大量的APP或者网页产生了大量的文本信息数据,人工处理这些文本信息的方式越来越难以胜任时代的发展。如何快速的从大量杂乱无序的文本中,提取出简短准确有用的信息,已成为当下急需研究的课题。近些年的研究成果之一就是自动文本摘要,使用计算机来处理这些文本信息。自动文本摘要是从大量相同主题的文本中提取出关键信息生成简短摘要的方法。人们可以快速的获取关键信息而无需阅读整个文
学位
稀疏网络编码中选取大量为零的编码系数,在原包子集中进行编码,可使信宿端产生一稀疏解码矩阵。为降低解码复杂度和传输延时,稀疏网络编码中可实现部分解码,即在解码整代原包前提下,通过收集部分编码包解码出原始数据。中继协作无线网络中引入稀疏网络编码技术可有效提高传输效率,进一步通过中继节点传输模式的调整,在传输开销有限的情况下最大化再生包占比率,提高解码概率。针对传统基于稀疏网络编码的传输方案,其后期信宿
学位
脑机接口(Brain Computer Interface,BCI)是一种通过神经活动识别人的意图并将电生理信号转换为设备控制命令的技术。基于脑电(Electroencephalography,EEG)的运动想象(Motor Imagery,MI)脑机接口在构建人脑与外部设备的通路中得到了广泛的应用。然而,由于EEG严重受到低信噪比和不可预测的模式变化的影响,基于MI的EEG信号的解码仍然是一项具
学位
心脏磁共振成像(cardiac magnetic resonance,CMR)主要用于心脏功能评估和心血管疾病诊断。通过心脏磁共振图像评估临床参数,包括射血分数、心室容积、脉搏输出量和心肌质量,它们被认为是黄金标准。应用计算机辅助诊断来解决这一问题已成为近年来的热点。以往的研究提出了很多基于传统特征的方法,随着卷积神经网络的发展,心脏磁共振图像中器官自动分割方法相对于传统特征提取方法在速度和准确率
学位
文本主题内容的提取在自然语言处理领域内是一个基础性的研究问题,它为人工智能的各种应用提供了相应基础。然而受传统挖掘技术的限制,智能化的准确提取文本内容还存在较大问题。特别是在过去的几年里,人们存储数据的能力不断提高,再加上互联网的日益普及,已经创建了大量的电子文本,这使得人工阅读甚至传统挖掘技术去适应这快速发展的信息社会已经显得不合时宜。因此研究一项能够快速且智能化提取文本内容的模型,有助于推动整
学位
随着互联网商品交易日益频繁,商家希望能够从用户评论中了解用户的喜好,从而改进商品。传统情感分析的困境在于无法准确判断评论中用户对商品各个方面的情感偏好,而方面级情感分析这类细粒度的方法能够有效识别不同方面的情感,因此更能满足商家的需求。基于依存句法的方法能够捕获方面词与意见词之间的远距离信息,从而被广泛用于方面级情感分析任务,但该类方法仍然存在句法信息学习不足,以及句法信息学习与上下文信息学习分离
学位
随着移动互联网的快速发展和应用,移动应用程序成为人们进行移动办公、社交活动以及网络购物的重要载体。通过流量识别移动设备上安装的应用程序是网络管理员和营销机构等获取信息的重要手段。识别移动应用流量可以为移动互联网流量的配置部署提供支持,改善基于业务或者应用的细粒度移动网络资源分配,增强移动网络和应用程序的安全性。由于移动应用程序的多样性以及加密协议的大量使用,传统流量识别技术不能很好地适用于移动端的
学位
<正>2022年6月23日,深圳市第七届人民代表大会常务委员会第十次会议通过了《深圳经济特区智能网联汽车管理条例》,自2022年8月1日起施行。《条例》全面贯彻中央战略部署,在与国家法律、法规、规章相衔接的基础上,在国内首次对智能网联汽车的准入登记、上路行驶等事项作出具体规定,是国内首部关于智能网联汽车管理的法规。
期刊