微博垃圾用户行为建模和甄别

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:heidaruanjiande1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近两年来,以微博为首的社交媒体快速发展,例如新浪微博已经拥有几亿的注册用户和近亿的活跃用户。随着微博平台的发展,出现了很多垃圾用户。这些垃圾用户或发布广告、或发布谣言、或受雇转发,对微博平台的公开公正的信息传播造成了不良的影响。本文基于实际的新浪微博数据进行了垃圾用户的分析研究,建立了基于微博重复发布行为和LDA主题模型的垃圾用户检测模型SDM。基于此模型,在真实的垃圾微博数据中进行了垃圾用户甄别实验,并利用用户的其他信息进一步增强了算法的效果。主要成果如下:1.设计实现并行微博爬虫,在大量实际垃圾用户数据(新浪微博举报大厅)的基础上对微博的不同类型垃圾用户进行了行为分析,为提出垃圾用户检测模型提供了基础和依据。2.基于垃圾用户的行为特点(短时间内重复发布垃圾微博),提出了基于微博重复发布行为的垃圾用户检测模型SDM,从重复发布行为和垃圾微博内容两个方面对垃圾用户进行建模,得到用户重复发送行为的评估函数F(U)。3.在真实的微博垃圾用户数据集中,利用SDM模型进行了垃圾用户甄别实验。从有效性、参数对算法效果的影响和不同类型微博信息对效果的影响等方面进行了实验和分析。4.针对利用SDM模型进行垃圾用户甄别时参数难以确定、扩展性不足的缺点,使用基于SVM的垃圾用户甄别方法,将SDM模型计算出的重复行为评估函数作为SVM等通用分类算法的一维特征,结合其他特征进行实验。在真实微博垃圾用户数据中的实验结果证明,使用完整的特征集合,可以提高数据挖掘的效果,且具有更广泛的扩展性。
其他文献
网络编码是通信领域的一个研究热点,它可以提高网络可靠性和数据传输效率,主要应用于广播、多播和单播中。而把网络编码应用于无线传感器网络汇播机制的研究,目前还处于理论分析
在过去的几十年中,高斯混合模型广泛且成功的被用于说话人识别的研究中。为了处理动态增长的数据集和GMM初始化问题,以及在少量训练数据下得到高效的学习结果,本文提出一种自
本文针对生物仿真的图像分割算法——LEGION的半自动化和仅能分割灰度图像这两点不足,分别提出了改进方法。首先,本文引入图像分割效果的评价函数,提出了参数自动确定的LEGION算
该文从仿真的可信度和逼真度角度出发,从动力学建模、坦克火控解算算法、综合防护性能表征、视景仿真、声音仿真等方面,对分布式虚拟战场环境中的坦克仿真系统进行了深入研究
“测井数据库系统”是CNPC石油勘探开发应用软件“开发测井多井评价软件开发”的子课题,主要功能是对测井数据进行规范化管理.该文从大型数据库的实际应用出发,理论联系实际,
为了克服传统的基于文字检索存在的主观性、低效率等缺点,人们开始强调基于内容的检索技术(CBR).考虑到信息对于信息获取的重要性,该文主要研究了基于内容的图像存 储图像存
传统的集中式备份解决方案依赖IP网络作为其数据路径,这样,仅传输的数据量就会使带宽处于饱和状态,结果备份周期经常超过预先计划好的备份时间。为解决集中式备份中存在的问题,计
该文提出了一个成熟的建立在IA架构的普通PC服务器上和Unix操作系统上的大容量分布式电子邮件系统方案.该系统具有结构简练,移植容易,伸缩性强,可扩展性好,支持协议广泛,响应
WWW已经发展为拥有近一亿用户和大约400万站点,3亿页面的巨大分布式信息空间,且其信息量仍以指数形式在飞速增长。但由于它上面的信息具有开放性、动态性和异构性使得人们很难
该文在理论上的主要贡献就是对于一般线性椭圆型问题,提出了一种确定其最优(近优)Robin参数的极其简洁的方法.中科院软件所并行中心研制的并行油藏模拟器PRIS_1.0已成功地运行