基于卷积神经网络的多文档自动摘要研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:khalista9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上的信息量迅速膨胀,人们会获得大量冗余的信息,而浏览这些冗余信息会浪费大量时间和精力,因此出现了自动摘要技术,目的是从信息中找到重要部分。对于同一主题下的多篇文档而言,会出现大部分相似或者一样的片段。即使对这些文档进行压缩去重,也仍然解决不了信息量过大的问题。因此多文档自动摘要技术应运而生,利用该技术可以对多篇文档的信息进行提炼,从而解决信息冗余的问题。传统的多文档自动摘要方法没有考虑到主题和语义的重要性,且可读性较差。因此,本文在构建的新闻多文档数据集的基础上,利用多特征融合、卷积神经网络(Convolutional Neural Networks,CNN)和门控循环单元(Gate Recurrent Unit,GRU),不仅保证了文本向量能够包含足够的语义信息,而且提高了生成摘要的准确性。具体而言,本文主要做了以下工作:(1)从人民网、新浪网等通过爬虫获取30种不同主题的中文长文本新闻网页数据,再经过数据预处理等步骤,构建自建的多文档自动摘要数据集,为本文的方法做铺垫。(2)提出了一种基于特征融合的多文档文摘方法。首先使用Han LP进行分词,然后使用Word2Vec训练词向量模型。方法融合LDA、余弦相似度、Text Rank、句子长度和句子位置,结合多元线性回归方法动态抽取句子。最后使用MMR(Maximal Marginal Relevance)和LD(Levenshtein Distance)消除冗余。实验结果表明,该方法在ROUGE评测体系中表现良好,可以有效帮助用户寻找到有价值的信息。(3)提出了一种基于卷积神经网络和门控循环单元的多文档文摘方法。首先建立带有注意力机制的序列到序列(Sequence to Sequence,Seq2Seq)模型,然后把8.3万条数据放入深度学习模型上训练。其中,编码器使用卷积神经网络和门控循环单元,解码器使用门控循环单元。最后反向调整参数以提高模型的鲁棒性。实验结果表明,采用该方法在ROUGE评测体系中表现良好。此外方法还实验于DUC2004数据集,结果表明该方法针对英文多文档同样有效。(4)本文将传统的自动摘要方法和深度学习方法相融合,在多特征融合、卷积神经网络和门控循环单元的深度学习方法(Multi-feature CNN GRU,M-C-G)的基础上,设计了一个中文多文档自动文摘系统,把摘要结果以更直观的方式展现给用户。
其他文献
在全球化和城市化的今天,亚洲城市遗产保护因其面临的经济快速扩张、多宗教文化、多民族融合和殖民文化等复杂社会因素而受到国际遗产保护领域的高度重视。亚洲各国在城市遗产保护方面的国际合作也日益增长,尤其是在由经济为中心转变为经济文化并行的“一带一路”战略的倡导下,我国逐渐加强与周边国家的文化合作,并在2014年丝绸之路首次成功列入跨区域世界遗产名录后,广泛参与周边国家的文化遗产保护项目。虽然,我国与缅甸
在实无限维Banach空间X中研究Volterra型非线性多值发展方程的Cauchy问题其中A:D(A)█ X → 2X█是一个m-增生算子,且-A在D(A)上生成一个非线性压缩半群T(t),k:D(k):={(t,s);t∈[0,T],0≤s<t}→R是一个连续核函数,F:[0,T]× C([-τ,0];conv D(A)→2X█是一个有非空闭凸值的多值函数,φ ∈C([-τ,0];D(A
燃料电池(Fuel cell,FC)具有清洁高效无污染的特点,是理想的能源转换技术,然而其阴极氧还原动力学过程缓慢,一般需要使用资源稀少、价格昂贵的铂催化剂,这导致燃料电池成本急剧增加,阻碍了其商业化应用。近年来,用于替代铂的非贵金属催化剂在用于燃料电池电催化氧还原领域展现出了巨大潜力,但是目前绝大多数非贵金属催化剂制备过程繁琐、流程冗长、耗时耗力且污染环境,且活性和稳定性差,无法达到商业化标准。
自21世纪以来,智能电网在大数据技术和物联网技术的推动下不断革新。智能电网作为一种优化管理,可以充分满足用电需求和环保要求,促进资源的整合配置,使电网运行的安全性、可靠性和使用的经济性得到保障。在智能电网背景下,传统的运维模式已经不能满足需求,这就需要在智能电网建设中引入新兴技术,向着无人值守、主动预警的智能化运维进行转变。在大数据时代,智能运维的理想状态是把运维工作的监控、管理和故障定位通过一些
沙丁胺醇是一种肾上腺素能受体激动剂,因非法使用产生的环境残留,严重影响人类的身体健康,因此针对其建立一种超灵敏检测方法尤为重要。目前的一些检测技术以大型仪器为主,很难满足现场需要。本文建立了一种基于免疫磁珠、桥接DNA与两种不同的DNA扩增技术相结合的高灵敏、特异性检测沙丁胺醇(SAL)的方法。首先,分别在3端和5端修饰了完全抗原形成邻位连接探针,通过偶联磁珠的抗体特异性识别两个邻位连接探针,在桥
荧光探针由于具有选择性强、灵敏度高、操作方法简单,且可实现无创实时监测的等优点,被广泛应用于生物成像研究领域。香豆素类化合物是一类广泛分布于植物界的次生代谢物质,
十九大报告中提出“房子是用来住的,不是用来炒的”定位,我国提出要构建租购并举的住房制度,鼓励多方主体供给,多种渠道保障,2017年8月原国土局、住建部提出利用集体建设用地建设租赁住房,这项举措可以有效缓解住房供需压力,推动房地产市场平稳健康发展。目前,关于集体建设用地租赁住房项目建设在我国范围内已经选取了18个城市作为试点,但是,试点城市开发运营过程中仍存在一些问题,对于集体建设用地租赁住房产生的
毫米级(0.3~0.8mm)的聚苯乙烯微球(俗称白球)是离子交换和吸附等功能树脂的骨架材料。目前国内毫米级的聚苯乙烯微球均采用悬浮聚合法生产。该工艺简单,但制得的微球粒径难控
随着社会文化环境的不断变化,面对时代话语的全面渗透和多种旅游新业态的冲击,历史文化街区陷入新的发展困境。当代人的价值观念、偏好、思想和利益需求潜移默化的影响着街区
染料废水色度高、有机物成分复杂、致癌性强且难以降解,未经处理直接排放会对环境造成不利影响。现有处理方法如吸附、絮凝沉淀、超滤膜和催化降解等方法中,催化降解法应用最为广泛,但这依赖于新型高效催化剂的开发。本文通过Shewanella oneidensis MR-1合成新型纳米催化剂Cu/CNTs、Fe2O3/TNTs、Cu7S4/rGO纳米复合材料并对其性能进行表征,在此基础上研究其对环境中有机污染