论文部分内容阅读
随着互联网的快速发展,各种信息数据以指数级别的速度增加,海量杂乱无章的文本数据分布在各行各业,而文本挖掘中用户特征分析、推荐系统、舆情监控等任务的实现均依赖于高质量文本数据的获取。如何从这些复杂混乱的文本中快速有效地挖掘出有意义的语义信息成为自然语言领域内的一项重要任务。主题模型是一种有效的文本主题挖掘方法,它将文本按照主题划分成若干个有意义的簇,且同一类别内的所有文档能够共享同一主题,该方法在文本挖掘领域取得了广泛应用。但是网络中的短文本大多存在数据稀疏问题且在不同语境下的词语拥有不同的含义。对于具有高稀疏性且非结构化等特点的高维文本数据,传统的文本主题提取方法难免会造成上下文语义的缺失,进而影响到文本语义挖掘的效果。因此,论文将句向量模型引入到主题模型,在LDA模型和Doc2vec模型的基础上,从以下两个方面展开了研究:1.针对主题模型中上下文语义缺失问题,论文提出了Doc-LDA算法。即将包含上下文特征信息的Doc2vec向量和具有文本全局信息的LDA模型相结合来处理文本。在Doc-LDA模型中,首先将语料库中的文本通过Doc2vec训练得到文档向量,再用LDA模型得到的每个主题中的高概率词语用于表示主题,并将主题词语映射到向量空间得到主题向量,最后通过计算主题向量与文档向量之间的余弦距离来进行文本表示。本文在爬取的摘要语料上对Doc-LDA模型进行了准确率、召回率以及F值的测试,实验结果表明,基于LDA和Doc2vec的文本表示模型相比传统的基础模型以及同类方法有了进一步的改善。2.针对不同向量空间下的表示缺乏准确性问题,论文提出了DBOW-LDA算法。即将LDA得到的全局主题融入到DBOW中,首先采用LDA主题模型训练得到主题分布,再对经过LDA得到的主题分布向量化处理后与DBOW中的文本向量进行求平均值,文本的主题向量表示为文本中所有词的向量矩阵与该文本的主题分布的乘积,最后输出含有主题语义信息的给定文本的句向量表达。DBOW-LDA模型在同一语义向量空间进行文本向量和主题向量的训练,进一步提高了算法的准确性。在与其他基础文本表示方法进行聚类结果的对比实验中可以得出,论文提出的DBOW-LDA算法性能更优。