论文部分内容阅读
近年来信息技术和互联网技术飞速发展,给人类社会带来了极为广泛和深刻的影响。随着门户网站、搜索引擎、社交网络、电子商务等的井喷式发展,每天有海量文本信息在网络中产生和传播。文本是网络信息最主要的载体,如何过滤、组织、管理、挖掘海量的文本信息是一个很有必要并且有价值的研究课题。文本分类作为信息处理领域中的一个前沿课题,利用机器学习技术将文本自动分类,使得我们能够有效的管理海量文本并快速定位到我们需要的信息。文木分类已经在信息检索、新闻分类、邮件分类、舆情分析等领域得到广泛的应用。文本分类的关键技术有着重要的应用前景和重要的研究意义。向量空间模型(Vector Space Model,VSM)和主题模型(Topic Model)是当前最流行文本特征表示方法,这两个模型均为词袋模型,词袋模型忽略了词与词之间的顺序信息和词的上下文信息。然而,几个词的顺序不同,所表达的语义不同;词的上下文不同,其含义也不同。文本的类别和文档中的语义信息是强相关的,VSM和主题模型忽略的语义信息对于文本分类来说是有帮助的。鉴于VSM和主题模型存在的问题,本文结合深度学习(Deep Learning)的几种关键技术,深入研究了基于语义的文本特征表示方法,更有效的提取了文本中的语义特征,进而提升了文本分类的效果。深度学习的优点是它能通过深层网络结构学习到抽象的特征,即语义特征。本文使用了词向量(Word Embedding)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等深度学习技术,从语义特征的方面对文本分类算法进行研究,主要工作包括:(1)提出了基于负采样的循环神经网络语言模型(Negative Sample based Recurrent Neural Network Language Model,Neg-RNNLM)来训练词向量。本文分析了当前各种词向量的训练方法存在的问题,改进了 RNNLM的模型结构,提出了基于负采样的RNNLM模型,不仅提升了训练速度(速度提升了 5倍),还提高了词向量的质量,进而提升了文本分类的效果。(2)将文本数据和知识库结合用来训练词向量(Word Embedding)。知识库(WordNet)中含有丰富且准确的语义关系,本文提出文本-知识库混合模型来训练词向量,将WordNet中的语义关系融入到词向量的当中,使词向量中的语义信息更准确。实验表明,文本-知识库混合模型提升了文本分类效果。(3)对比分析了 3种基于词向量的文档特征表示方法对于文本分类的影响。基于词向量,本文对比了3种文档特征表示方法,分别为Paragraph Vector、CNN模型和RNNLM循环层向量(RNNLM循环层向量是本文提出的新的文本特征表示方法),并比较了不同表示方法对文本分类效果的影响。实验表明,使用CNN模型来表示文档进行文本分类的效果最好。