基于网络模型融合的新闻长文本表示与分类方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:liongliong547
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机水平的提高和大数据时代的到来,文本分类作为自然语言处理的一个重要分支正发挥着越来越重要的作用,它在个性化推荐、数据挖掘、信息检索等方面都有着广泛的应用。经过多年的研究与发展,文本分类技术已形成完整的体系,不论是基于传统机器学习还是基于深度学习,研究者都提出了很多相关的理论创新和实践应用,并取得了丰硕成果。但是爆炸式增长的文本信息在促进文本分类技术发展的同时,又使其面临着诸多挑战,特别是对于长文本来说,目前对其表示方法的研究要么存在严重的信息丢失问题,要么存在维度过高问题,而且现在对文本分类的精度和稳定性要求也越来越高。针对以上问题,本文以新闻长文本为研究对象,首先对其经过去噪声、分词、去停用词等数据预处理操作后,然后采用卡方检验(Chi-square test,CHI)和Word2Vec结合的方式获取文本的向量表示,这种文本表示方法很好地解决了传统方法表示长文本时产生的信息丢失和维度过高等问题;之后训练基于卷积神经网络(Convolutional Neural Network,CNN)和带有注意力(Attention)机制的门限循环单元(Gated Recurrent Unit,GRU)融合的神经网络模型,最终得到新闻文本的分类模型。本文主要使用THUCNews数据集作为实验数据集,通过实验验证了此模型的有效性。本论文的创新点主要有以下两点:(1)在文本表示方面,本文提出了结合CHI和Word2Vec的长文本表示方法W2V-CHI(Word2Vec-CHI)。目前的文本分类方法大多针对短文本,而对于新闻文本这种长文本类型,通常采取的做法是先把长文本截断,之后再用和短文本一样的方法来处理,这样必然会导致文本信息的缺失,而且截断后保留的部分还会有相当多的对分类没有影响或影响很小的特征,影响分类性能。针对这一问题,本文综合考虑了卡方检验在特征提取上的优势和Word2Vec优秀的词向量表示能力,提出了结合CHI和Word2Vec的长文本表示方法W2V-CHI。此方法的主要思想是先对各个词语特征进行卡方检验,符合检验标准的词语特征保留,不符合标准的词语特征舍弃,之后将保留的文本词语特征用Word2Vec词向量表示。这样不但避免了传统方法处理长文本的暴力截断,而且得到的文本词向量含有更多的语义信息和更低的维度,实验证明了此文本表示方法的有效性。使用此方法得到的文本向量表示将作为后续分类模型的输入。(2)在分类模型搭建上,本文提出了基于CNN和GRU横向融合的网络模型MLCNN&Bi GRU-ATT(Multi-layer CNN&Bidirectional GRU with Attention Mechanism)。随着深度学习的发展,大量CNN、RNN模型用于文本分类且取得了很大成果,它们在处理文本数据上有各自的优势。首先,GRU作为RNN的变种如今广泛用到自然语言处理任务中,它可以轻松捕捉到文本上下文关联信息的特征,在处理时序序列上具有天然优势,而且其模型结构相对简单,对计算资源的要求不是很高;其次,CNN在提取文本局部特征方面有明显优势,它可以使文本的信息更加丰富。最后,文本是由词语构成的,不同词语对分类的影响有着很大的差别。体现这种差别常用的方法是通过注意力机制计算词语对分类的重要程度,并相应赋予不同的权重来凸显关键词对分类的贡献,忽略或减小无关词的作用。基于以上GRU和CNN各自的优势以及文本词语特征对分类影响的特点,本文以W2V-CHI方法得出的文本表示作为输入,提出了一种含有多层CNN和带有注意力机制的双层GRU横向融合的分类模型,该模型不仅具有强大的学习能力,而且还可以提取到兼顾文本局部信息和全局关联信息的深层次语义特征。实验结果表明,相较于目前广泛使用的经典模型,此模型在THUCNews数据集和Sougou CS数据集上都取得了较高的分类准确率。
其他文献
大数据时代,海量数据在网络上产生和传输,被不同组织存储、转化和利用。数据起源记录数据从产生到消亡的整个生命周期内涉及的数据实体、处理过程以及相关的人员和组织。数据
深度学习方法在极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)图像分类中有着非常重要的地位,其目的是通过大量的标记数据对模型进行训练,从而挖掘更丰富
随着大数据时代的到来,卷积神经网络(CNN)因在图像分类方面显示了优越的性能成为深度学习领域的研究热点,但基于深度学习模型是由大量数据训练得到的,常被视为“黑盒子”,缺
耕地资源开发、利用及保护问题影响国家农业发展及国家经济发展,耕地的合理利用与保护问题一直是土地问题讨论的焦点之一。以往的研究基本上揭示了耕地质量的现状与发展趋势,但较少涉及耕地质量影响因素间的空间耦合。本研究通过对奉新县耕地质量主导影响因素进行空间耦合性分析,可以为南方丘陵区耕地质量提升提供对策,对耕地质量评价指标体系的简略及评价提供一定指导,为耕地的合理利用与保护提供科学依据。本文通过参考文献资
从二维图像序列中恢复出物体的三维结构信息和运动信息一直以来都是三维重建领域的一个热点问题。现实世界中很多物体都是非刚性的,这些非刚性体的运动信息除了旋转和平移之
目的:研究影响无骨折脱位型颈脊髓损伤患者手术疗效的相关因素。方法:统计2007年11月至2016年11月期间在我院诊断为无骨折脱位型颈脊髓损伤,并且接受手术治疗135例患者的临床资料,其中包括年龄、性别、脊髓损伤ASIA分级、MRI中脊髓损伤长度、Pavlov比值、后纵韧带骨化、椎间盘突出、MRI中脊髓损伤类型、受伤至手术时间、大剂量激素冲击治疗、手术时间、术中出血量12个可能对手术疗效产生影响的
目的:通过检测哮喘预测指数阳性婴幼儿服用“平喘固本合剂”前后血清炎症因子(IL-5、IL-17、NF-κB)的变化,探讨“平喘固本合剂”对哮喘预测指数阳性婴幼儿气道炎症的影响。方法:2017年10月至2018年10月于青岛大学附属医院儿科门诊就诊的哮喘预测指数阳性婴幼儿(≤3岁)120例作为研究对象(平均年龄为2.17±0.53岁,男56例,女64例);用简单随机分组方法分为3组:平喘固本合剂治疗
目的:本研究的目的是为了分析单中心中的女性乳腺癌患者在接受新辅助化疗(neoadjuvant chemotherapy,NAC)前后在磁共振影像学(magnetic resonance imaging,MRI)上表现出的肿块强化模式是否可用于辅助评估新辅助化疗疗效,以及术前使用影像学评估术后病理学改变的准确性。方法:本研究共纳入38名局部进展期(locally advanced breast ca
目的:机体在受到急性放射线照射后反应迅速而强烈,细胞、组织、器官都会造成不同程度的损伤,严重的还以直接致死。实验研究表明,复方树莓籽粉对急性放射性损伤大鼠外周血白细胞,血小板,淋巴细胞DNA,肝脏等都会有一定程度的保护作用。骨髓细胞是骨髓内各种细胞的总称,作为人体造血、免疫和创伤修复的基石,其意义重大。复方树莓籽粉对急性放射性损伤小鼠骨髓细胞作用如何,本实验从细胞水平对急性放射性损伤小鼠骨髓细胞有
储备池计算(Reservoir Computing,RC)是一种机器学习工具,已经成功运用于混沌系统预测和隐藏变量观测。RC使用一个储备池作为隐藏层,这是一个会随着时间的推移而对输入的变化