【摘 要】
:
随着Internet上的文本数据呈指数级的速度增长,“信息过载”问题日益严重,如何降低用户的信息负载,对文本数据进行“降维”操作显得十分必要,文本自动摘要则是其中一个重要的手段。随着深度学习的不断发展,越来越多的研究人员利用深度学习技术来自动为文本生成摘要。本文基于深度学习算法对摘要生成方法进行研究,主要工作如下:生成过程中容易出现未登录词以及生成内容不全面的问题,提出一种基于关键词信息和对抗学习
论文部分内容阅读
随着Internet上的文本数据呈指数级的速度增长,“信息过载”问题日益严重,如何降低用户的信息负载,对文本数据进行“降维”操作显得十分必要,文本自动摘要则是其中一个重要的手段。随着深度学习的不断发展,越来越多的研究人员利用深度学习技术来自动为文本生成摘要。本文基于深度学习算法对摘要生成方法进行研究,主要工作如下:生成过程中容易出现未登录词以及生成内容不全面的问题,提出一种基于关键词信息和对抗学习的两阶段中文文本摘要生成算法。该算法包括关键词抽取和摘要生成两部分。首先,利用基于注意力机制的Seq2Seq模型提取关键词;然后通过对抗学习来动态缩短源文本与摘要文本之间的语义距离,并在此基础上将提取到的关键词信息添加到注意力机制中,使模型关注源文本的主题信息,生成更全面的摘要。在LCSTS数据集上的实验结果表明,本文提出的算法可以有效地提高摘要的准确性,减少未登录单词的数量,与Seq2Seq方法相比,分别在ROUGE-1,ROUGE-2和ROUGE-L评分上提高6.1%,4.8%,6.2%。第二,针对生成式摘要算法在处理长文本过程中出现长时间依赖导致准确率低的问题,本文提出一种融合生成式和抽取式的长文本摘要算法,包含主题句抽取和摘要生成两部分。在主题句抽取阶段,通过加入Doc2vec来改进Text Rank中的文本相似度计算方法,提高关键句抽取的准确性。在摘要生成阶段,将上一阶段得到的关键句作为摘要生成的输入,并在Seq2Seq的编码器和解码器之间加入一个包含CNN和自注意力机制的门控单元,提取文本间的n-gram信息,控制模型的信息流动,缓解生成摘要结果中的词语重复。通过在自己爬取的新浪财经新闻数据集上的实验结果表明,在处理长文本时,该方法在准确性方面优于单个的抽取式或生成式方法。上述工作为文本摘要自动生成提供了新的研究思路,本文所提出的方法在ROUGE评分也有明显提升,在缓解信息过载问题中有较好的实用性。
其他文献
与传统合金不同,高熵合金(HEA)是由5种以上主元组成的具有稳定固溶体的新型材料,因具有高强高韧、耐磨、耐蚀和抗氧化等优良性能而引起广泛关注。本文采用真空电弧熔炼法和激光表面处理法制备FeCrNiMnMo_x和FeCrNiMnAl_y高熵合金,对材料组织、力学性能和电化学腐蚀性能进行了研究。本文研究表明:FeCrNiMnMo_x(0,0.1,0.3,0.5,0.8,1)高熵合金由FCC相转变为FC
随着图像拼接技术的发展与成熟,针对拼接图像质量进行客观评价以比较图像拼接算法性能的作用越来越重要。目前图像质量评价方法对于拼接图像的研究较少,并且拼接图像质量评价方法往往受到标准参考图像或拼接算法的限制。在实际评价拼接图像时,面对复杂的拼接场景,研究一种通用独立的拼接图像质量评价方法具有实用的意义。基于此,本文从实际需求出发,重点研究了图像质量评价技术在一维和二维拼接图像中的应用。通过构建拼接图像
人口老龄化是人类社会正在面临的共同问题,与其他国家和地区相比,我国的人口老龄化除了规模大、速度快和“未富先老”外,还具有城乡不平衡的特点,农村老年人口比重大大超过城镇,并且随着城镇化进程的加快,农村青壮年劳动力快速向城镇转移,农村空巢老人不断增加,农村养老压力不断加大,探索一条既与城市养老服务紧密相连又有区别的农村养老服务发展道路已成为迫切需求。农村互助式社区养老方式凭借其社区性和互助性的优势,成
大约50Ma年前印度-欧亚大陆碰撞,印度块体向欧亚大陆之下俯冲,导致青藏高原的隆升并造成青藏高原下方显著的地壳增厚。而青藏高原东北缘作为研究高原的隆升变形机制和对中国东部构造演变远程作用的重要区域也受到了广泛的重视和关注。到目前为止,国内外的学者在该研究区域已经进行了大量的有关地球物理学和地震学方法的实践和理论研究,得到了许多的研究结果,但对其变形机制仍存有争议。如在中下地壳,低速层的发现可能暗示
神经网络(Neural networks)是一种复杂的大规模动力学系统,它被视为能够有效逼近非线性网络控制系统的工具之一,因而被广泛地应用到图像处理、模式识别、人工智能、信号处理等领域。当前关于神经网络的研究及应用成为网络控制系统中的一个研究热点。网络带宽的有限性会给网络控制系统带来数据丢包、网络诱导时延、数据安全等问题。这些问题可能导致通信网络堵塞甚至崩溃,从而影响正常的信息传输过程。为了节省传
磷矿所含的伴生碘是一种潜在的资源却难以直接开采。在使用湿法磷酸(WPA)工艺分解磷矿时发现碘会进入磷矿酸解液(PA)中,对PA中的微量碘进行高效分离回收具有重要意义。目前虽实现了从WPA中提碘的工业化生产,但随着磷矿中碘的含量降低,导致在PA中碘的浓度大幅度降,使得碘的富集捕捉越发困难,成本也在逐步攀升。本文对PA中碘的分离体系提出一种新型分离方式-泡膜分离法。论文研究取得的主要成果如下:(1)开
极区的恶劣自然条件使得极区导航困难重重。地磁力线迅速收敛、极区磁场异常、严重的干扰和多径效应等问题导致了地磁导航、无线电导航、卫星导航等中低纬度地区常用的导航手段在极区不能正常使用。能够全天候、全时间自主导航且具有较强隐蔽性的捷联惯性导航系统(SINS)几乎成为极区导航的唯一选择。初始对准技术是SINS在导航开始前的重要步骤,初始对准的精度会直接影响SINS的导航精度。目前,如何在极区完成精度较高
随着社会的进步和经济的不断发展,我国的人口结构也发生改变,进而生育政策也要做出相应的调整。2016年初国家全面放开了二孩的生育限制,然而此项政策对改善人口问题的作用,未能达到预期效果。“全面二孩”时代的到来,为生育保险制度的改革提供了契机。本文以二孩政策下湖北省生育保险制度改革研究为主线。首先,对相关概念和理论基础进行阐述,通过文献法,梳理湖北省生育保险制度的历史变迁与现状。其次,以武汉市为例,运
在大多数的数字通信与存储系统中,纠错码(error correction codes,ECC)或者纠删码已经被广泛地用于提高系统的可靠性。作为常见的代数码,RS码和BCH码已经被大量地研究,而且被多个工业标准采纳。通过级联短的代数码,人们可以得到有更好纠错性能的新码。大多数情况下这些代数相关码的解码算法,相较于LDPC和polar码这类的现代编码有着更低的复杂度,并且他们的解码性能可以被精确地分析
近年来以装配式混凝土建筑为代表的新型建筑工业化快速推进,建造水平和建筑品质明显提高,但由于装配式混凝土建筑的参与单位数量较多,且单位间存在复杂的业务关系,整体供应链结构十分复杂,因此装配式混凝土供应链企业之间信息传递不及时、沟通不顺畅等问题频发,使得整体供应链风险日益突出,管理难度日益增加。论文针对当前供应链企业处于松散的业务关系现状,基于系统动力学和SCOR理论进行了装配式混凝土建筑供应链分风险