基于机器学习的水军识别及话题影响力分析研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:cho159753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和迅速普及,新浪微博已经成为了当前社会受众最大的综合性社交平台。截止到2017年6月,新浪微博月活跃用户数已经达到3.61亿,与上年同期比较增长了28%。但其快速发展也伴随着一系列问题,其中就包括水军在微博平台兴起、并逐渐呈现快速增长的趋势。微博水军的存在极大程度的影响了微博话题的质量,致使很多不真实的话题内容干扰网民们的思考以及对话题趋势的判断,进而造成社交环境不健康等严重问题。本文通过研究水军用户与正常用户的属性区别,基于改进的逻辑回归算法对水军用户建立特征识别模型,进而筛除水军用户和其所发表的微博信息后对微博内容进行话题检测,然后针对话题层次上的微博进行影响力分析,找出能代表当前话题意见领袖的微博。通过对话题检测和分析话题层面的微博影响力找出微博中的意见领袖来了解当前微博最新最热的资讯及其舆论方向。本文针对水军的用户特征属性、行为特征属性和时间特征属性结合改进的逻辑回归算法应用Tensorflow学习框架训练得出微博水军识别模型,通过对比实验结果发现改进的方法能够有效的识别出微博水军;同时利用LDA主题概率模型和改进的Single-pass增量聚类算法的结合,对去除水军用户所剩下的正常用户的微博内容进行话题检测,最终得出话题。由于原有的Single-pass算法聚类效率较差、依赖文本的输入顺序,以及针对微博的特殊性不能聚类得到良好的话题结果,所以对Single-pass做出了以下改进:1)增加时间参数判断话题是否满足同一性;2)计算聚类中心点,以减少文本间多次相似度计算以提高聚类效率;3)批量输入微博文本数据减少原算法过度依赖输入顺序对话题结果的影响。对原有算法和改进后的算法分别进行实验,最终对比实验结果证明改进后的Single-pass算法提高了话题检索效率和准确率。本文提出了话题层面的微博影响力评价方法,该方法利用了PageRank的基本思想对检测到的话题进行影响力分析找出话题层面的微博意见领袖。其中话题层面的微博影响力和以下三个因子有关:1)用户的活跃度;2)话题有关的微博受关注度;3)转发话题微博的用户质量。最后通过对具体的实例进行分析研究说明该方法的有效性和可行性。
其他文献
随着我国经济社会发展,行政执法如何同刑事司法有效对接成为困扰我国执法司法实践领域的一大难题。为此,国务院于2001年先后制定并发布了《关于整顿和规范市场经济秩序的决定
木瓜蛋白酶又称为木瓜酶,是番木瓜中含有巯基的一种特异性蛋白水解酶,被广泛应用于食品、医药等领域,但使用传统分离纯化木瓜蛋白酶的方法不能获得高活性、高纯度的木瓜蛋白酶,因此,对于获得高品质木瓜蛋白酶分离方法的研究具有非常重要的实际意义。双水相体系作为一种简单、高效的分离纯化技术被广泛应用于蛋白质或酶的分离纯化,但目前对双水相体系的研究大多集中在PEG/盐和离子液体/盐三元双水相体系,而对于四元双水相
随着学习型社区理念的普及,越来越多的人关注并参与到社区教育中。常州作为华东地区经济发达城市,社会劳动力流动量和频率较大,因此,对下岗人员和待业人员以及从业人员普遍进
雨生红球藻因主要脂肪酸组份为棕榈酸、油酸和亚油酸等中性脂肪,不饱和双键较少等原因,被认为是生物柴油的理想原料。然而,较高的生产成本限制其大规模工业化生产。本课题希望通过提高雨生红球藻生长速率和脂肪含量来分别提高单位面积产量和降低单位生物量的生产加工成本,从而提高该生产过程的经济性和可持续性。因此,本实验将雨生红球藻与淡紫拟青霉TD16(以下简称TD16)混合培养,以研究真菌对微藻生长和脂类合成的影
本研究以西杂公牛(西门塔尔牛与本地牛杂交的杂交公牛)为试验动物,通过尼龙袋法、高通量基因测序技术和饲养试验,研究不同比例的谷草和玉米秸秆对西杂牛营养物质降解率、瘤胃
针对自主研制主机采用ARM-FPGA结构的小型可编程逻辑控制器(PLC),该PLC由PLC主机、手持编程器、人机界面装置等模块组成,各模块通过CAN总线连接通信;本文对人机界面装置、CAN总线
随着互联网的普及,用户群体规模与日俱增,由此产生大量的数据,进入大数据时代。互联网领域产生的数据大都使用图来建模表示,由于图数据规模巨大,传统的集中式方法已不能在合理时间内完成数据处理,人们逐渐使用分布式计算平台来并行处理大图数据。计算机领域将关于图的处理称为图计算,图摘要作为图计算的一个重要方面,是大数据分析和处理的重要手段。图摘要是将大规模的图归纳为更加简洁的表示形式的技术,能够降低图的规模和
K-means算法因其简单、实用性被广泛的应用于商业、学术等领域。但该算法本身依赖于初值的选取,聚类精度差,且面对海量数据的处理容易出现存储问题。Hadoop的广泛应用,实现了
存款保险制度作为金融保障制度中的一种,主要是为了保护存款人的利益与维护银行系统的稳定,但它的运行受其自身所携带的问题(道德风险与逆向选择问题)影响,要解决这些问题的
作为计算机视觉领域的重要分支之一,视觉目标跟踪得以迅速发展,并在无人驾驶、体育赛事直播、智能监控、人机交互等众多领域表现出非常好的适用性。由于跟踪的物体容易受到光