基于半监督学习的微博水军识别系统的研究与实现

来源 :东南大学 | 被引量 : 4次 | 上传用户:opss_eagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和社交网络的蓬勃发展,微信、今日头条、斗鱼、新浪微博等新型社交媒体平台已经成为人们获取新闻资讯、分享生活点滴的重要方式之一。这类新兴起的社交媒体平台具有公开性和即时性。新浪微博作为这类新型社交媒体平台的代表,目前的月活跃用户约4亿,由于聚集了庞大的用户群体和社会关注度,有一些商人雇佣水军利用平台来炒作热点和卖点来获取丰厚的利益,导致网络水军的数量愈来愈多,平台虚假信息充斥,网络环境急剧恶化。因此水军的识别已成为数据挖掘研究者们最为关注的领域之一。通过研究水军识别技术,一方面可以改善用户体验,另一方面还可以对舆论进行规范和引导,避免非公正信息的广泛传播造成不良社会影响。所以,对水军识别技术的研究具有重要的实际意义。本文通过对微博手机端网页进行分析,采用基于Scrapy-redis的分布式爬虫框架进行微博用户数据采集。由于水军的行为越来越趋同于正常用户,单纯的基于用户信息、用户行为或者文本内容等特征进行水军识别效果都不理想。本文提出采用One-hot模型表示用户信息特征,采用Doc2Vec模型表示用户微博文本特征,采用Node2Vec模型表示用户社交网络特征,最后进行向量拼接,采用综合表示作为识别模型的输入。在系统分类器算法的选择上,本文选取了三个之前在水军识别领域应用最多的算法,并设计对比实验。通过对实验结果进行分析选取了逻辑回归模型作为系统分类器的模型。在对数据集进行分析后发现对整个微博平台用户来说,标记数据的确有限,但是未标记数据可以通过爬虫的方式获取,因此本文使用的是基于半监督学习的三体训练方法训练模型。本文基于B/S架构给出了系统的各模块的设计与实现,并对系统的分类性能进行了评估,验证了系统的可行性。
其他文献
在全球汉语热的驱动下,泰国的汉语教学也得到了前所未有的发展。相应的,学者们对泰国汉语教学的研究也是越来越多,然而,大部分学者的关注点都只是在汉语语音、语法、词汇、口
公共卫生是“健康梦”的题中之义,是同心共筑中国梦的重要组成部分,有利于促进广大人民群众健康,有利于全面建成小康社会,公共卫生事业的发展改革及其问题与措施,备受全社会
随着移动通信市场规模的不断壮大,通信技术也得到了前所未有的快速发展,移动通信网络的日常优化势在必行。通常,通信设备在正式交维后会面临无线环境、站点搬迁、用户行为、
人类历史上最大规模的城市化运动和消费升级浪潮决定了中国房地产未来几十年无限广阔的发展前景,房地产行业超额利润的广泛存在赋予房地产企业巨大的发展空间。但是,机会的背
目的:探讨宜昌市中心人民医院急诊与危重症医学科使用“白+黑方案”治疗口服百草枯中毒的疗效。方法:采用回顾性研究收集2013年01月01日-2018年12月31日期间本院急诊与危重症医学科收治的口服百草枯中毒患者的病例资料,根据纳入标准和排除标准确定研究对象,按是否应用“白+黑方案”分为治疗组和对照组,比较患者一般情况;入院第1天、第3天、第7天、第14天、第21天肝肾功能、炎性指标、氧合指数、死亡
高海拔寒区隧道排水结构设置困难且局限性较大,隧道防排水结构和保温措施的设置仍是目前被关注的焦点问题。随着研究的不断进步,新材料的应用和新结构的研究将是排水保温设计的重点发展方向。本文针对高海拔寒区隧道仰拱保温材料和结构形式进行研究,从新材料、新工艺的角度出发,进行了仰拱充填泡沫混凝土的可行性分析,研制了高性能泡沫混凝土,提出了采用新材料的寒区隧道仰拱保温结构和保温布设方案。结合寒区隧道仰拱填充施工
新一代移动通信技术不仅要满足用户对移动通信技术的超高数据传输速率的需求,而且要追求技术实现的绿色低碳能耗。MIMO(Multiple-input Multiple-output)技术凭借其多天线技
软件演化是指在软件系统的生命周期内软件维护的行为和过程。随着软件的演化,软件的架构和代码会产生相应的变更,获取软件演化过程中的变更信息对软件演化研究具有重要意义。
从过去的的土地制度改革,到如今的农村土地抵押贷款政策,我国一直都是致力于发展农村生产力,解放农村土地权利,实现农村农业现代化,借助金融支持激活农村经济,改善农村金融服
最近几年,随着中国经济的快速发展,房地产开发行业竞争日益激烈。房地产开发企业要想在未来的市场竞争中立于不败之地,很大程度上取决于房地产开发企业的市场营销战略与策略