基于文本聚类的微博舆情热点检测技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:healthborn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种新兴的网络交流媒体,自诞生以来就受到了广大网络用户的追捧,成为广大网民表达自身意愿的重要平台之一。微博平台具有灵活便捷的特性,这些特性为网民参与交流带来很大的便捷,同时也对互联网舆情监测带来很大的挑战。微博用户每天都会在微博平台上发布大量的信息,这些信息不仅包含微博用户对自身情感的表达,还包含人们对各种社会问题的观点看法,微博已经成为我国网民表达舆论的重要场所之一。目前国内外的舆情监测系统主要是针对BBS论坛、新闻站点等网络媒体,在微博舆情检测方面还需要进一步的完善。本文针对微博的舆情监测问题对目前的研究现状展开研究,提出了一种用于检测微博平台中存在的热点话题的方法。本文中提出的微博热点话题检测方法主要在微博数据特征词汇提取、特征词汇权值计算和文本聚类方法三个方面进行了改进。首先基于微博信息表达特有的格式,在对微博数据进行特征词汇选择时,优先选择包含信息量较大或者处于重要位置的词汇作为该微博信息的特征词汇,从而降低向量空间的维数,加快系统的运算效率。其次针对特征词汇包含信息量规模大小的问题,在计算特征词汇的权值时,对处于重要位置的词汇进行了一定的加权,另外还对转发量和评论量高的微博信息中包含的特征词汇进行了一定的加权。最后在对微博信息进行聚类分析时,提出了一种基于密度的K-means聚类算法,该算法依据数据对象在向量空间中的分布规律进行聚类中心的计算,避免了聚类中包含的噪音数据和孤立点数据带来的影响,提高了聚类结果的准确率和稳定性。最后通过实验对基于密度的K-means聚类算法的有效性进行了验证,并通过与K-means聚类算法的性能进行对比,证明了本文中提出的基于密度的K-means聚类算法在各个性能指标上均有一定幅度上的提升,从而证明了本文提出的针对微博的热点话题检测方法的有效性。
其他文献
头孢菌素C酰化酶是能将头孢菌素C分子酰基侧链水解形成7-氨基头孢烷酸的酶。本研究将该酶基因转化到大肠杆菌BL21(DE3)中,在优化发酵培养基后,发酵酶活得到提高。在研究过程
软件老化现象是指软件长期执行时,由于计算机资源的消耗或系统本身的错误累积而造成故障率不断增加或性能不断下降的现象。针对这一现象,学者们提出了一种叫做“软件再生”的
H2Ti12O25因其高电压平台(1.55 V vs.Li/Li+)、结构稳定、安全性好等优点而受到广泛的关注,但固有的差导电性限制了其商业应用的前景。H2Ti12O25作为H2Ti3O7加热转化成Ti O2的
里氏木霉(Trichoderma reesei)是重要的纤维素酶产生菌,也是用于研究丝状真菌纤维素酶合成调控机制的常用菌株,其中的纤维素酶合成调控机理已获得了较充分的认识。Micro RNA(
创业能够有效地刺激经济增长,保障就业率,是社会可持续发展的重要推动力。促进大学生高质量创业成为国家重要的战略举措。近年来,各高校在创新创业教育方面有巨大的投入,但实际选择创业的大学生数量持续保持在低位,学生的创业热情较为低迷。如火如荼的创新创业教育是否发挥了应有的作用?学生的创业意向是否因创业教育而提高?如何鼓励大学生创业?这些问题成为了社会关注的焦点。学界在创业意向领域的研究得到越来越多的关注,
本文利用中国家庭追踪调查(CFPS)2010年数据研究了义务教育阶段家庭课外教育支出需求的决定因素以及对学生学习成绩的影响,从而对课外教育支出的效率及公平性效果进行分析。
目标跟踪技术是机器视觉领域的主流,智能化时代正在飞快的向我们靠近,包括人机智能交互、辅助医疗诊断、安全监控和国防军事等领域不断凸显其应用价值,成为继图像处理及模式
当今,随着先进科学技术的不断涌现,人们的需求不断增加,人脸识别以其友好性、直接性、快捷性等独特方面又成为学者们研究的重点。而人脸检测与跟踪技术作为人脸识别的关键步
视频目标跟踪,作为当今社会的前沿技术,在计算机视觉领域占有重要的地位,经过多年的发展,已经在国防、医疗、人工智能、视频监控等方面有着广阔的应用前景。传统的目标跟踪算
目的:检测多囊卵巢综合征(PCOS)痰湿证患者的血清、卵泡液和颗粒细胞中microRNA-183/200/223的表达,来筛选PCOS痰湿证的生物标志物,为其中医证候诊断的标准化提供理论依据。方法:收集2018年1月到2019年1月期间,就诊于山东中医药大学附属医院,年龄在20-37岁之间的不孕症女性患者,行IVF或ICSI助孕治疗。40例PCOS(PCOS痰湿组20例和PCOS非痰湿组20例)和