论文部分内容阅读
文本的向量表示是指从文本中挖掘和学习其中蕴含的语义信息,并将其表示为具体的实数值向量,以便计算机进一步处理后续自然语言处理任务。最简单常用的文本表示方法为词袋子模型(Bag-of-Words,BOW),这种简单的表示方式虽然有效利用了词频信息,但是丢失了词序信息,忽略了词与词之间的主题关联性,且存在维度过高和数据稀疏的问题。近年来,研究者提出了词向量(Word Embeddings)学习方法,它可以从大量无标注的数据中学习词的语义信息,并将词表示为低维、稠密的连续值向量,且语义相近的词在向量空间中的距离也更接近。词向量技术为基于神经网络的文本表示学习提供了基础,通过神经网络组合句子或文档中的词向量,可以得到更深层的文本语义表示,从而更好地处理文本分类、文本聚类、情感分析、句子语义匹配、自动问答等具体任务。本文针对句子语义匹配、文档主题分类和文档主题聚类三个具体任务,对句子和文档的语义向量表示与建模进行了研究。在句子语义匹配中,一般通过神经网络将两个句子的语义表示为向量,然后比较它们之间的语义关系。在主流的句子匹配模型中,一般通过长短期记忆网络(Long Short-Term Memory,LSTM)对句子进行语义编码。LSTM虽然有很强的时序建模能力,但循环结构的串行计算方式也限制了模型的计算效率。鉴于卷积神经网络(Convolutional Neural Network,CNN)的并行计算特性,本文采用CNN对句子进行语义建模。为了提高CNN对信息的选择和控制能力,我们借鉴LSTM的门控机制思想,在CNN中同时引入输出门(Output Gate)、遗忘门(Forget Gate)和记忆细胞(Memory Cell)。记忆细胞用来存储前几层得到的上下文信息,并在每一层通过遗忘门对记忆细胞进行更新;同时,输出门用来对当前层得到的候选输出值进行调节。实验和分析表明,门控调节机制有效增强了 CNN的语义建模能力。在文档主题分类中,经典的概率主题模型是常用的文本建模方法,它通过词与词的共现信息将文本映射到低维的潜在主题语义空间。近年来,基于神经网络模型的文本分类逐渐成为主流,并取得了显著的效果。鉴于有监督神经网络显著的区分性学习能力,本文利用神经网络提取文档的深层语义特征向量。在此基础上,本文将不同神经网络学习的语义信息或神经网络语义信息和主题模型的潜在主题信息相结合,然后利用支持向量机(Support Vector Machine,SVM)进行主题分类。实验表明,不同的语义信息具有互补性,它们的融合能有效提升主题分类系统的准确性和鲁棒性。文档聚类属于无监督学习任务,通常的文本聚类方法是先利用无监督文本表示模型得到文档的语义向量,再利用聚类算法对文档进行归类。相比于无监督模型,有监督模型可以生成更具主题区分性的特征。鉴于此,本文提出了基于共识分析的伪监督语义向量学习方法。该方法利用预聚类生成的簇标签作为样本的伪标签,引导有监督神经网络的学习。为了提高伪标签的精确度,本文对两组预聚类结果进行共识分析,选择共识样本作为神经网络的训练样本。最终,利用神经网络提取文档的语义向量。实验和分析表明,这种基于共识分析的伪监督语义向量具有更强的主题区分性,可以显著地提升文档主题聚类效果。