【摘 要】
:
随着网络基础设施的逐渐完善,互联网行业快速发展,网络用户的不断增多使网络信息量急剧增加,像百度、阿里、腾讯等著名互联网企业都建立了海量的云数据库来存储网络信息。当面对海量数据时如何提取出优质的信息,显得至关重要。自动摘要技术能够从冗余的文本中提取出简洁的文本,减少数据的冗余,提升用户的阅读效率。因此如何高效的提取摘要成为一个热点问题。技术主要分为抽取式摘要技术和生成式摘要技术。抽取式摘要技术是从文
论文部分内容阅读
随着网络基础设施的逐渐完善,互联网行业快速发展,网络用户的不断增多使网络信息量急剧增加,像百度、阿里、腾讯等著名互联网企业都建立了海量的云数据库来存储网络信息。当面对海量数据时如何提取出优质的信息,显得至关重要。自动摘要技术能够从冗余的文本中提取出简洁的文本,减少数据的冗余,提升用户的阅读效率。因此如何高效的提取摘要成为一个热点问题。技术主要分为抽取式摘要技术和生成式摘要技术。抽取式摘要技术是从文章中抽取重要句子作为摘要,虽然很大程度上保留了原文中的信息,但是它不能深度理解文本信息,得到的摘要连贯性不强。随着深度学习技术逐渐引入到自然语言处理中,生成式摘要技术成为目前研究的主流方向,但是过长的文本中存在大量的冗余信息,输入到序列中会导致编码器端无法准确地提取输入文本的特征信息,产生长距离依赖问题,最终导致模型无法收敛,生成摘要效果较差。本文针对以上问题提出了两阶段摘要生成算法。为了减少文本中的冗余信息,又能最大程度上保留丰富的原文信息,第一阶段首先使用BM25算法计算出句子之间的BM25相似度,其次使用BERT模型得到句子的语义向量,使用余弦相似度公式计算出两个句子的语义相似度,最后将BM25相似度和语义相似度按权重比例结合,将得到的相似度输入到Text Rank算法中进行迭代,抽取出关键句;第二阶段将抽取的关键句输入到基于Attention的Seq2Seq模型中,得到摘要。实验结果表明本文使用的两阶段摘要生成算法得到的摘要优于生成式摘要技术和抽取式摘要技术得到的摘要。本系统使用B/S架构设计自动摘要生成系统,主要功能为摘要生成。经过测试,本文设计的摘要生成算法提升了摘要生成的效果,满足了用户的需求。系统的实现过程:1.需求分析阶段:分析用户需求,确定系统生成的目标,对系统的开发成本是否低廉、系统的技术方面是否成熟、系统是否可靠进行了分析,并对系统进行非功能性需求分析。2.系统设计:首先设计系统的总体结架构;其次使用IPO表对系统进行详细设计,由总到分,设计每个功能模块;最后对数据库进行概念结构和表的设计。3.文本自动摘要生成算法:本文提出了两阶段摘要生成算法,第一阶段通过图模型算法抽取出关键句;第二阶段将抽取的关键句输入到深度学习模型中,得到摘要。4.系统实现及测试阶段:基于My Eclipse平台,使用Java Script语言对前台界面进行编码实现,使用Python语言完成了对深度学习模型的编写,使用JAVA语言完成对抽取关键句代码的编写,使用ROUGE评价指标对摘要效果进行测评。
其他文献
随着经济社会发展以及乡村振兴战略的全面推进,越来越多的社会力量开始参与到乡村治理当中,乡村治理以党政为主的局面悄然发生变化,治理主体多元化成为未来乡村治理的发展趋势。因此,如何形成乡村治理主体多元化格局,以实现人民群众的自我管理、自我约束、自我规范,备受社会关注。健全以自治、法治、德治为主要内容的“三治融合”的乡村治理体系是加快和推进乡村治理体系和治理能力现代化的重要内容。“三治融合”通过将自治、
中国普天"服务公社"破冰数据壁垒,优化并完善"互联网+政务服务",推动政务服务"一网通办"迈向"一网好办"。"服务公社"是中国普天所属企业普天和平与重庆永川区政府共同打造的互联网+智慧政务便民综合服务政务大数据平台。平台借鉴快递行业包裹分发流程,采用大数据AI标记技术和数据机器人技术,创新首推"数据快递小哥",疏通"跨专网数据通道",通过自研技术对政务服务事项进行颗粒化深度分解和梳理,
目的:分析自我行为与饮食护理干预对幽门螺旋杆菌感染患者自我效能与预后的影响效果。方法:从我院收治的幽门螺旋杆菌感染患者中选择了120例为研究对象,分成对照组和观察组。对照组应用常规模式的护理,观察组应用自我行为与饮食干预的护理,对比两组患者的护理效果,分析两组患者接受护理后的依从性。主要针对合理用药、戒烟戒酒、分餐和少量多餐的依从性进行对比。结果:观察组患者护理效果明显好于对照组,两组比较存在差异
结构的变形是结构设计中一项重要指标,关系到整个结构的安全性与舒适性,其中厂房设计中结构变形尤为重要。目前,我国现有规范仅对部分结构形式的排架厂房变形做出明确规定,且很少考虑结构整体性变形的影响。为研究结构整体性对厂房纵向与横向变形的影响,本文基于工程检测实例,采用有限元方法,分别建立空间厂房模型与平面厂房模型进行分析。结果表明:在风荷载或吊车荷载单独或同时作用时,如果空间效应不明显,则两种模型侧移
随着计算机技术的日趋成熟,计算机辅助药物设计已经普遍应用于人们的日常生活中。应用计算机技术可以提高实验成功率,并且能节省大量的时间、资金以及劳动力,为新药研发提供了更广阔的空间。目前,使用计算机辅助药物设计已经成为当今社会人类健康的研究热点。因此,本研究基于化合物的结构使用机器学习算法,以目前有机化合物致心脏毒性为研究对象,建立一个新的预测效果更准确的化合物致心脏毒性预测模型。在预测有机化合物致心
网络舆情包含用户对于诸多社会现象与热点问题的看法与思考,而社交网络是舆情内容产生与传播的重要载体。基于在线社交网络的舆情信息的产生与传播具有以下三个特点:一,在线社交网络的准入门槛较低,用户生产舆情信息所需的时间和空间成本较低;二,社交网络的特性决定了舆情信息可以在网络中快速传播;三,广大用户群体对于虚假舆情内容的辨识能力参差不齐,使得虚假舆情信息在网络平台中快速传播。因此,研究在线社交网络中舆情
随着矿井开采深度的增加,煤矿震动灾害愈发频繁。一旦发生震动灾害,便会在很短的时间内直接毁掉矿井下相关巷道甚至整个工作面,造成设备损坏,及人员伤亡。煤矿震动灾害具有触发时间短、空间定位困难等特点,需要实时监测微震数据判识灾害并快速实现灾害定位,为开展后续救援工作提供支持。依靠先进的信息技术与感知技术,处理震动灾害监测成为研究的热点,因此,针对这些问题,本文研究并实现了基于改进粒子群算法的煤矿微震定位
在图像识别技术领域,图像识别精度和收敛速度是验证图像是否有效识别的关键指标.为了有效提高神经网络的识别精度和收敛速度,需要提升卷积神经网络(Convolutional Neural Network,CNN)的网络参数调整的自适应性、稳定性以及灵活性.本文主要针对随机经典动量(Stochastic Classical Momentum,SCM)算法和自适应矩估计(Adaptive Moment,Ad
广义分数阶系统,也可以称为描述分数阶系统、奇异分数阶系统或隐式分数阶系统,它具有一般分数阶系统没有的动态特性.对于一般的分数阶系统,其状态空间模型需要能够完全表征出系统行为的状态变量.但在实际生产生活中,系统进行建模时选用的系统变量往往不能够满足所要求的最小性.在这种情况下,就要采用广义分数阶系统模型来描述研究对象.可见,对实际系统来说,奇异系统的表述更为直接和合适.所以对广义分数阶系统进行深入研