论文部分内容阅读
近年来微博逐渐成为广泛的在线社交方式,然而伴随在线社交网络而生的垃圾用户严重影响了用户的微博体验。基于特征提取的垃圾分类技术是常用的垃圾识别技术,特征的选择与提取将影响识别的精确度。国内外当前多数研究对象均为英文微博,以twitter为主。针对中文微博领域的空缺,本文采用机器学习的方法对中文微博特征进行了深入研究,并且对相关学习算法进行了详细分析及应用,设计并初步实现了一个可行的垃圾微博识别系统,主要工作如下:1)数据获取。本文采用新浪官方提供的java版本的sdk,通过调用API接口,获取实验数据。其中为解决访问上限问题,本文使用了多用户授权码来获取足够的数据。2)预处理及微博特征提取。本文中的分类需要基于向量空间模型的中文文本相似度、长短链接相似度、发文时间规律等新的分类特征来提高识别准确率。在提取方法中,本文首先提取微博中的内容以及用户的相关信息,然后将其相关特征表示成向量,作为分类器的输入,利用支持向量机分类器对其进行建模分类。3)分类。对于新样本,经过对微博内容及用户信息预处理及特征提取之后,可以利用之前得到的模型对之进行分类。4)系统构建。本文从系统架构和各模块工作流对系统进行描述,系统由多个模块构成,使用java实现各模块功能。该系统可以实现获取用户数据、构建模型、判断用户类型等功能。实验结果表明,该方法是一种有效的垃圾微博识别技术。实验采用新浪数据,但对中文微博具有通用性。