论文部分内容阅读
短文本作为互联网上用户产生内容(UGC)的主要承载形式之一,其因为巨大的数据量和极高的增长速度而蕴含着巨大的价值。短文本的特征稀疏问题(文本长度短)使得文档级的词共现模式的统计变得困难,对短文本的隐含语义挖掘,一直是LDA等传统主题模型的软肋。因此如何解决短文本的特征稀疏问题和辅助推断短文本的隐含主题一直是文本挖掘的热点。自然语言处理领域的词嵌入(词向量)由于在词向量空间可以很好表达词的语义相似性这一特点,而成为辅助短文本挖掘的策略之一。因此本文提出两种不同的词嵌入结合策略,将其应用到词对主题模型(BTM)上,提升短文本隐含主题发现的一致性。第一种词嵌入结合策略是基于词向量提升语义相近词同属一个主题的概率,因为语义或词法上相近的词很有可能属于相同主题,因此结合词嵌入表达的词之间的语义相似性,在利用Gibbs采样推断主题模型参数的过程中,增加当前采样词的语义相近词出现在同一主题下的频数,因而提升语义相近词出现在同一个主题下的概率。另外在BTM的词对生成过程中,同一个词对中两个词完全属于同一主题的假设比较牵强,因此对词区分主题词和通用词,通过单词在当前采样主题下的概率分布进行判断,参数推断过程中也只对主题词的语义相近词的主题频数进行提升。基于该词嵌入结合思想提出了promotion-BTM模型,在多个真实数据集上的实验证明,无论是主题词的一致性,还是基于文档分类或聚类的主题质量评估,我们的模型均优于基准BTM模型。第二种词嵌入结合策略是基于词向量空间的聚类簇约束主题词的分布。考虑到跟一个主题高度相关的词往往仅为词表的一部分,因此在生成文本中单词的过程中,选中一个主题后,从整个词表中抽取词过于宽泛。本文采用k-means算法在词向量空间中对单词聚类成多个簇,将主题词约束在聚类得到的多个簇中,其本质上是在主题-词的多项分布中增加一层簇的约束,将主题先看作是所有约束簇的多项分布,每个约束簇又是其含有的所有单词的多项分布。在生成文本中单词的过程中,先选中一个主题,从主题下选中一个簇,再从簇中抽取单词。由于语义相近的词在词向量空间中距离也较近,因此被聚类到一个簇的可能性很大,通过将主题词约束到簇,也间接地提升了语义相近词同属一个主题的可能性。本文基于该词嵌入结合思想提出了constraint-BTM模型,在主题模型的多个评估指标上均超过了基准BTM模型,证明了约束主题词分布的有效性。