论文部分内容阅读
随着计算机互联网技术的高速发展,微博作为一种信息传播速度快、用户互动性强、信息实时性高的新型网络媒体很快得到人们的认可,成为人们了解时事信息、分享个人生活点滴重要平台。仅新浪微博一例,每日就有几亿条新微博,其中包含大量时事信息。对于如此重要的网络媒体,如何及时的获取其中的热点主题、用户关注的主题方向、社会热点话题的舆论方向显得非常重要。 本文在传统LDA模型的基础上,结合四种类型微博(@类型微博、话题类型微博、转发类型微博、回复类型微博)特点,提出中文微博主题模型CMB-LDA(Chinese MicroBlog-Latent Dirichlet Allocation)。从国内中文微博平台(主要是新浪微博)上爬取微博数据,利用开源的汉语分词系统NLPIR对微博数据分词处理,去掉停用词,挖掘出2013年7月到2013年12月之间微博数据的主题,并通过实验对比LDA模型与CMB-LDA模型的Perplexity性能。全文有下面几点贡献: 1)挖掘出用户与主题之间的关系。对于一条@到某个用户的微博,说明这个被@的用户与这条微博的主题有关联关系,根据这种关联关系,只要知道了微博的主题,就可以知道被@的用户关注的主题,这样就可以挖掘出用户与主题之间潜在的语义价值。微博平台可以根据这种潜在的语义关系向用户做个性化的推荐。 2)挖掘出热门话题下的主题。CMB-LDA模型在传统主题挖掘“文档-主题”概念的基础上提出“话题-主题”的概念,即一个话题下,用户讨论了那些主题。该模型的做法是挖掘出与话题相关联的微博主题,进而找到话题下用户关注那些主题。根据这一信息,微博平台可以分析出热门事件中民众的舆论方向,有利于知悉和引导民众舆论。 3)实验验证CMB-LDA模型性能。本文通过实验分别计算出LDA模型与CMB-LDA模型的Perplexity值,实验结果表明在相同的迭代次数下CMB-LDA模型的Perplexity值更小(perplexity值越小表明模型性能越好)。 4)使用Gibbs Sampling抽样方法对CMB-LDA模型进行求解,实现中文微博主题挖掘,同时并将这种主题模型类推到其它的社交平台,如微信平台、人人网、QQ聊天等。