论文部分内容阅读
随着社交网络和问答网站的兴起,短文本已成为网络上信息传递的主要方式,例如传统网页的标题、各类新闻和博客的标题等都是短文本形式的。同时,微博、知乎、Twitter、Facebook等网站的主要数据形式也是短文本。因此,从短文本中挖掘主题信息有着广泛的应用场景,例如从微博中发现突发性话题,利用文本主题信息进行个性化推荐等等。主题模型是有效的从文本中挖掘潜在主题信息的方法,然而由于短文本中"文档-词"的数据过于稀疏,传统的主题模型在短文本主题挖掘方面的效果并不理想。针对传统主题模型在短文本领域的局限性,本文提出了一种新的短文本主题模型——网络词三角主题模型(WTTM),克服了数据稀疏性的问题,并在试验中取得了较理想的效果。本文的主要工作如下:1)针对普通词网络无法指示不同文档子网络交汇部分的问题,对词网络构建策略做出了改进,利用词对出现的文档序号集合作为对应边的标签,使得可以通过对比两条边的标签来判断对应的两个词对是否来自同一文档,从而判断其是否处于文档交汇处;2)针对普通"词-词"共现关系语义关联较弱的问题,提出了从词网络中寻找特定词三角结构的策略,挖掘词网络中代表着词之间更强主题关联性的词三角结构,词三角中的词有着更强的语义关联性,和更强的主题集中性;3)以词三角为文本主题的基本单元,提出了网络词三角主题模型(WTTM),并与LDA和BTM进行了对比实验,实验结果表明,在短文本主题挖掘方面,WTTM相对于LDA和BTM都具有一定优势;4)在词三角结构的基础上进行词团结构的拓展,分析词团中的节点个数对主题挖掘效果的影响。随着词团中节点个数的增加,词团主题模型主题聚合度的实验结果也取得了一定提升。