基于CMB-LDA的微博主题挖掘

来源 :浙江大学 | 被引量 : 0次 | 上传用户:GPSCMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机互联网技术的高速发展,微博作为一种信息传播速度快、用户互动性强、信息实时性高的新型网络媒体很快得到人们的认可,成为人们了解时事信息、分享个人生活点滴重要平台。仅新浪微博一例,每日就有几亿条新微博,其中包含大量时事信息。对于如此重要的网络媒体,如何及时的获取其中的热点主题、用户关注的主题方向、社会热点话题的舆论方向显得非常重要。  本文在传统LDA模型的基础上,结合四种类型微博(@类型微博、话题类型微博、转发类型微博、回复类型微博)特点,提出中文微博主题模型CMB-LDA(Chinese MicroBlog-Latent Dirichlet Allocation)。从国内中文微博平台(主要是新浪微博)上爬取微博数据,利用开源的汉语分词系统NLPIR对微博数据分词处理,去掉停用词,挖掘出2013年7月到2013年12月之间微博数据的主题,并通过实验对比LDA模型与CMB-LDA模型的Perplexity性能。全文有下面几点贡献:  1)挖掘出用户与主题之间的关系。对于一条@到某个用户的微博,说明这个被@的用户与这条微博的主题有关联关系,根据这种关联关系,只要知道了微博的主题,就可以知道被@的用户关注的主题,这样就可以挖掘出用户与主题之间潜在的语义价值。微博平台可以根据这种潜在的语义关系向用户做个性化的推荐。  2)挖掘出热门话题下的主题。CMB-LDA模型在传统主题挖掘“文档-主题”概念的基础上提出“话题-主题”的概念,即一个话题下,用户讨论了那些主题。该模型的做法是挖掘出与话题相关联的微博主题,进而找到话题下用户关注那些主题。根据这一信息,微博平台可以分析出热门事件中民众的舆论方向,有利于知悉和引导民众舆论。  3)实验验证CMB-LDA模型性能。本文通过实验分别计算出LDA模型与CMB-LDA模型的Perplexity值,实验结果表明在相同的迭代次数下CMB-LDA模型的Perplexity值更小(perplexity值越小表明模型性能越好)。  4)使用Gibbs Sampling抽样方法对CMB-LDA模型进行求解,实现中文微博主题挖掘,同时并将这种主题模型类推到其它的社交平台,如微信平台、人人网、QQ聊天等。
其他文献
近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件
随着我国社会信息化的不断发展,餐饮行业的点菜系统也在不断地进行信息化建设,无线点餐系统已经成为影响酒店档次的主要因素之一。目前,市场上流行的无线点餐技术是一种基于P
随着社交媒体的不断发展,网络通信每时每刻都在产生海量的数据信息,而伴随着海量数据的指数级增长,“大数据”成为信息技术的热潮。对于有移动社交网络设备所产生的大量的数
复杂事件处理技术以事件为驱动,从实时事件流中检测复杂事件模式,对实时性要求较高,因此本文提出分布式复杂事件实时检测系统,以实现良好的可扩展性、更高的吞吐量,更低的检测延时
随着社会网络规模不断扩大,利用社会网络中存在的关系进行信息传播受到研究者广泛关注。受到市场营销中“口碑营销”及“病毒式营销”问题的启发,该问题逐渐演化出一类新的研究
物联网的核心部分是由无线传感器网络构成的,能够部署在恶劣的环境中监测、获取和传递监测区域的各种信息,被广泛用于智能交通信息网络、智能供电网络和工业生产监控等方面。
目前大多数移动终端采用的都是小型指纹传感器,只能捕捉到部分指纹图像,录入的部分指纹图像无法提供充足的细节点特征。因此,传统基于细节点的指纹匹配算法无法应用于移动终端。
人物行为识别是计算机视觉领域研究的基础任务和关键技术之一,被广泛应用于智能视频监控、高级人机交互、视频会议、基于行为的视频检索以及医疗诊断等。因此,研究人物行为特征
随着Internet的飞速发展,人们的工作生活越来越离不开互联网,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。网民数量的急剧增加带来的庞大的访问流量给很多受
随着互联网技术和社交网络技术的飞速发展,用图交流已经成为当下最有效的沟通手段,因此利用机器模拟人脑对图像的理解和识别,具有广泛的社会应用价值。其中,相似图像的检索在图像