一种基于支持向量机的垃圾微博识别方法

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:zhouyu_yy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来微博逐渐成为广泛的在线社交方式,然而伴随在线社交网络而生的垃圾用户严重影响了用户的微博体验。基于特征提取的垃圾分类技术是常用的垃圾识别技术,特征的选择与提取将影响识别的精确度。国内外当前多数研究对象均为英文微博,以twitter为主。针对中文微博领域的空缺,本文采用机器学习的方法对中文微博特征进行了深入研究,并且对相关学习算法进行了详细分析及应用,设计并初步实现了一个可行的垃圾微博识别系统,主要工作如下:1)数据获取。本文采用新浪官方提供的java版本的sdk,通过调用API接口,获取实验数据。其中为解决访问上限问题,本文使用了多用户授权码来获取足够的数据。2)预处理及微博特征提取。本文中的分类需要基于向量空间模型的中文文本相似度、长短链接相似度、发文时间规律等新的分类特征来提高识别准确率。在提取方法中,本文首先提取微博中的内容以及用户的相关信息,然后将其相关特征表示成向量,作为分类器的输入,利用支持向量机分类器对其进行建模分类。3)分类。对于新样本,经过对微博内容及用户信息预处理及特征提取之后,可以利用之前得到的模型对之进行分类。4)系统构建。本文从系统架构和各模块工作流对系统进行描述,系统由多个模块构成,使用java实现各模块功能。该系统可以实现获取用户数据、构建模型、判断用户类型等功能。实验结果表明,该方法是一种有效的垃圾微博识别技术。实验采用新浪数据,但对中文微博具有通用性。
其他文献
数据挖掘技术是数据库和人工智能领域研究的热点课题,用于发现潜藏在大量数据中的有用知识。随着数据库规模的不断增长,数据挖掘方法面对的数据对象越来越大且在不断变化中,使用
  本文提出了一种改进的符号表搜索算法并给出了详细的面向对象的实现,将TCI抽象数据类型与TTCN-3中间表示无缝结合,实现了TTCN-3中的模板匹配机制,同时给出了对TTCN-3类型限
移动Agent(MobileAgent,MA)是一个能在异构的网络中自主地从一台主机迁移到另一台主机,并可以与其他Agent或资源交互的程序。而当前移动Agent系统研究的首要问题之一就是其安
我国的医疗机构改革正从“以管理为中心”向“以病人为中心”转型。早期的医院信息系统主要应用于管理与经济方面,随着该系统的深入应用,以病人为中心的临床信息系统的研究开发
随着网络的迅猛发展,网络安全问题已经成为人们关注的焦点。防火墙和入侵检测系统的作用越来越明显。入侵检测系统作为防火墙的有力补充,是网络安全系统的第二道防线。但是,高速
本文在进行广泛的资料收集,对现有的医学图像配准和融合方法进行分析、归纳的基础上,提出一套医学图像融合的解决方案——首先用由“粗”到“精”的基于互信息的配准方法对
随着网格技术的产生与发展,基于网格环境下的应用研究已经越来越多。网格技术作为第三代网络技术,是目前受到密切关注的研究领域,具有非常重大的科研和应用前景。国内外的学
从上世纪80年代起,神经网络的研究引起了人们的高度重视,其应用范围广泛,涉及模式识别、函数逼近、智能控制、数据挖掘和知识发现等诸多领域,并取得了可喜的成绩。但在应用中,尤其
视频信息具有高效性、直观性和准确性,因而在信息资源中,视频信息的开发及利用具有极其重要的理论意义和应用价值。随着计算机网络技术和第三代移动通信技术(3G)的日趋成熟,视频通
IP安全是Internet以及TCP/IP网络安全的基础,随着人们对Internet的依赖性越来越强,IP安全性显得尤为重要,甚至关系到Internet的未来发展。  IP安全协议IPSec是IETF制定的安全I