基于Word2vec的微博热点话题检测技术研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:qwert526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的高速发展及移动设备的大量普及,微博客(Microblog,简称微博)逐渐成为人们相互交流,获取世界各地奇闻异事的重要途径。越来越多的网民通过微博将情感和对某事件的看法表达出来,这样就形成了不同于传统新闻媒体的网络舆情。从微博文本中挖掘有效信息、提取热点对及时发现网络舆情有深刻意义。因为微博文本具有字数少、上下文联系不紧密的特点,在文本建模过程中会面临严重的数据稀疏问题,从而影响话题检测准确度,所以对微博短文本的热点话题检测技术的研究非常有必要。本文围绕微博短文本的建模以及话题检测做了相关研究,主要工作如下。(1)获取微博短文本以及预处理。为获取更具话题性的微博,首先提出利用网络爬虫技术,爬取具有影响力的大V账号微博来获取数据,与通过官方平台提供的接口获取数据相比,网络爬虫更简便且能获取更多的数据;随后筛除内容少的微博文本以减少冗余;最后利用结巴分词对微博短文本分词,并进—步去除其中的停用词。(2)改进主题建模方法。针对微博短文本建立文本模型时面临的数据稀疏问题以及扩充外部语料难的问题,提出了将特征词输入Word2vec的Skip-gram模型以训练词向量,得到与特征词语义相近的词扩充入短文本,再采用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)对扩充后的文本建立模型以提取主题的方法。该方法既解决了 LDA用于短文本时会面临的严重的稀疏问题,又保留了 LDA能解决语义之间的关系的优势,最终有效提高了微博短文本建模的准确度。(3)对热点话题检测相关算法进行改进。针对传统的Single-Pass聚类算法计算量大、输入的文档需要和之前的文本逐—计算相似度的缺点,提出了改进的Single-Pass聚类算法。在LDA模型输出的文档-主题矩阵中选取质心向量作为话题中心,后输入的文本只需与话题中心作相似度比较。该算法有效地提高了聚类速度。通过改进的Single-Pass聚类对文档-主题矩阵进行聚类后得到初步的热点话题,再利用凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)合并话题得到凝聚度更高的热点话题。通过上述研究,本文完成了基于Word2vec的微博短文本热点话题检测技术研究。详细描述了采集微博数据、建立相关文本模型、话题检测三大部分,并针对短文本数据稀疏问题,提出基于Word2vec扩充短文本的LDA算法,同时采用改进的Single-Pass聚类与HAC算法相结合对话题进行合并。实验证明,与传统的热点话题检测算法相比,本文提出的算法有效提高了微博短文本热点话题的提取精确度。
其他文献
伴随互联网的高速发展及移动设备的普及,社交网站的出现为人们进行社交活动提供了另一重要场所。截止到2018年12月,中国互联网络信息中心(CNNIC)最新发布的数据报告显示,微信
如何搞好城市文化研究,建设有中国特色的现代城市,走出中国自己的城市道路来,这是我们经常思考的问题.
进入2004年下半年,由房地产开发企业举办的这样、那样的酒会频频出现,众多高档楼盘无一例外地展露出了有关艺术、格调、品位的人文内涵.于是,我们看到,重庆地产格调时代已经
对3种不同桥面系形式的钢桁梁桥——采用纵横梁桥面系的普通栓焊下承式简支钢桁梁桥、采用结合梁桥面的下承式板桁桥及采用正交异性钢桥面的公轨两用双层连续钢桁梁斜拉桥进
激光冲击成形技术是在对激光冲击强化机理的认识和研究基础上发展出来的,是一种新型板材柔性精密成形方法。在激光冲击强化的过程当中,零件表层产生沿厚度方向分布的高幅残余
研究了电解质对聚丙烯酸[poly(acrylic acid),PAA]-α-Al2O3-H2O悬浮液流变性能的影响以及PAA-聚氧化乙烯[poly(ethylene oxide),PE0]-α-Al2O3-H2O悬浮液的抗电解质的性能。结果表
目的:颅内动脉瘤破裂是导致蛛网膜下腔蛛血的主要原因,颅内动脉瘤的早期诊断及早期处理是预防动脉瘤破裂出血的重要方法,能够明显降低颅内动脉瘤破裂出血的几率。近年来造影技术及介入材料发展迅猛,血管内介入治疗已成为颅内动脉瘤治疗的重要手段。据文献报道,介入治疗与开颅夹闭相比较,前者动脉瘤术后复发率较高,而动脉瘤的复发率与动脉瘤的初始栓塞致密程度有直接关系,初始致密栓塞会提高动脉瘤内弹簧圈的稳定性,降低术后