论文部分内容阅读
近年来,伴随着计算机技术、互联网及移动互联网产业的高速发展,网民数量呈现出了爆发式的增长,以微信、微博等社交平台为代表的互联网产品也日趋成熟。随着大量活跃用户加入其中,每天都有数以亿计的短文本数据在这些平台上产生,如聊天记录、用户评论等。无论是对于政府部门、科研单位还是互联网服务提供商来说,能够正确地应用短文本分类技术,从而挖掘出蕴藏在数据背后用户的真实意图,具有非常重要的研究意义和巨大的应用价值。自2006年深度学习概念第一次被提出,已经在图像识别和语音识别等领域中取得了极大的突破。大量研究成果都证明了相比于传统的机器学习算法,深度学习理论中的诸多模型都能够获得更加出色的性能。本文尝试探索更加适合短文本数据的特征提取方法,并且将深度学习理论中的卷积神经网络模型引入到短文本分类技术中来。为此,本文主要做了以下工作:首先,本文详细阐述了短文本分类任务中的详细流程,具体包括数据预处理、中文分词、特征提取、分类算法研究等步骤。在此基础上,通过对短文本数据自身的特点进行分析,进一步阐述了传统的文本分类方法中所面临的诸多问题,这为后续介绍本文所采用的特征提取和分类模型设计的研究工作奠定了基础。其次,在对短文本进行特征提取时,为了能够更充分地描述词与词在连续低维空间中的语义关系,即提高特征的表达能力,除了原始数据集以外,在训练中还引入了维基百科中文数据集。本文并未采用传统的人工构建特征的方式,而是利用Skip-Gram神经网络语言模型来训练出数据集中每个词的word embedding。再将每条样本中出现的所有word embedding组合为二维特征矩阵的形式,用来代表该条样本的分布式特征。再次,本文设计了一种具有3种不同大小卷积核的卷积神经网络结构,从而能够在原始输入特征的基础上,进一步完成多种局部抽象特征的自动提取过程。此外,在每次迭代训练的过程中,原始输入特征也将作为模型参数被逐渐更新。实验证明,比起传统机器学习方法,包括支持向量机、随机森林、逻辑回归等,本文所提出的基于word embedding和卷积神经网络的短文本分类模型成功将分类正确率提升了5.04%。最后,在总结全文的基础上,对下一步的工作方向提出了展望。