论文部分内容阅读
随着计算机水平的提高和大数据时代的到来,文本分类作为自然语言处理的一个重要分支正发挥着越来越重要的作用,它在个性化推荐、数据挖掘、信息检索等方面都有着广泛的应用。经过多年的研究与发展,文本分类技术已形成完整的体系,不论是基于传统机器学习还是基于深度学习,研究者都提出了很多相关的理论创新和实践应用,并取得了丰硕成果。但是爆炸式增长的文本信息在促进文本分类技术发展的同时,又使其面临着诸多挑战,特别是对于长文本来说,目前对其表示方法的研究要么存在严重的信息丢失问题,要么存在维度过高问题,而且现在对文本分类的精度和稳定性要求也越来越高。针对以上问题,本文以新闻长文本为研究对象,首先对其经过去噪声、分词、去停用词等数据预处理操作后,然后采用卡方检验(Chi-square test,CHI)和Word2Vec结合的方式获取文本的向量表示,这种文本表示方法很好地解决了传统方法表示长文本时产生的信息丢失和维度过高等问题;之后训练基于卷积神经网络(Convolutional Neural Network,CNN)和带有注意力(Attention)机制的门限循环单元(Gated Recurrent Unit,GRU)融合的神经网络模型,最终得到新闻文本的分类模型。本文主要使用THUCNews数据集作为实验数据集,通过实验验证了此模型的有效性。本论文的创新点主要有以下两点:(1)在文本表示方面,本文提出了结合CHI和Word2Vec的长文本表示方法W2V-CHI(Word2Vec-CHI)。目前的文本分类方法大多针对短文本,而对于新闻文本这种长文本类型,通常采取的做法是先把长文本截断,之后再用和短文本一样的方法来处理,这样必然会导致文本信息的缺失,而且截断后保留的部分还会有相当多的对分类没有影响或影响很小的特征,影响分类性能。针对这一问题,本文综合考虑了卡方检验在特征提取上的优势和Word2Vec优秀的词向量表示能力,提出了结合CHI和Word2Vec的长文本表示方法W2V-CHI。此方法的主要思想是先对各个词语特征进行卡方检验,符合检验标准的词语特征保留,不符合标准的词语特征舍弃,之后将保留的文本词语特征用Word2Vec词向量表示。这样不但避免了传统方法处理长文本的暴力截断,而且得到的文本词向量含有更多的语义信息和更低的维度,实验证明了此文本表示方法的有效性。使用此方法得到的文本向量表示将作为后续分类模型的输入。(2)在分类模型搭建上,本文提出了基于CNN和GRU横向融合的网络模型MLCNN&Bi GRU-ATT(Multi-layer CNN&Bidirectional GRU with Attention Mechanism)。随着深度学习的发展,大量CNN、RNN模型用于文本分类且取得了很大成果,它们在处理文本数据上有各自的优势。首先,GRU作为RNN的变种如今广泛用到自然语言处理任务中,它可以轻松捕捉到文本上下文关联信息的特征,在处理时序序列上具有天然优势,而且其模型结构相对简单,对计算资源的要求不是很高;其次,CNN在提取文本局部特征方面有明显优势,它可以使文本的信息更加丰富。最后,文本是由词语构成的,不同词语对分类的影响有着很大的差别。体现这种差别常用的方法是通过注意力机制计算词语对分类的重要程度,并相应赋予不同的权重来凸显关键词对分类的贡献,忽略或减小无关词的作用。基于以上GRU和CNN各自的优势以及文本词语特征对分类影响的特点,本文以W2V-CHI方法得出的文本表示作为输入,提出了一种含有多层CNN和带有注意力机制的双层GRU横向融合的分类模型,该模型不仅具有强大的学习能力,而且还可以提取到兼顾文本局部信息和全局关联信息的深层次语义特征。实验结果表明,相较于目前广泛使用的经典模型,此模型在THUCNews数据集和Sougou CS数据集上都取得了较高的分类准确率。