论文部分内容阅读
近几年,随着网络技术的飞速发展和计算机的普及,互联网已经成为人们发布信息和表达观点的重要媒介。作为新兴社交媒体的代表,微博为社会舆论积聚和传播提供了空前的便捷空间,用户可以在微博上浏览自己感兴趣的信息,发表自己的看法;也可以在微博上发布内容供别人浏览。作为庞大的社交网络平台,微博中的热门话题会受到广大用户的关注和评论,而关于热门话题的评论反映了广大用户对于该话题的态度和观点,因此针对热点话题下的评论进行观点分析和挖掘,对于全面掌握舆论动态、了解民意具有重要的现实意义。目前,虽然基于微博的观点挖掘已经得到了学者的广泛重视与研究,但是如何准确的、有效的对微博中的短文本评论数据做观点挖掘仍需进一步的研究与探索。由于微博的公开性、匿名性、方便性等特点,微博平台成了垃圾评论滋生和传播的土壤,热点话题下的评论数据难免有与热点话题毫无关系的垃圾数据,其中含有情感倾向性的垃圾数据严重影响观点挖掘的准确性。因此,在挖掘观点之前,本文提出了垃圾数据识别的方法,去除评论中无关数据,可以有效的提高热点话题下评论用户观点分类的准确性。本文首先分析了微博平台涉及的相关技术,通过OAuth协议连接到微博平台,得到受保护资源拥有者的访问权限,基于微博爬虫二次开发获取微博数据,并将其存放在MySql数据库中。接着分析微博数据中不同的垃圾数据形式,提出不同的垃圾数据识别的方法,主要包括显性垃圾数据识别和隐形垃圾数据识别,然后设计并实现了基于支持向量机(Support Vector Machine,SVM)观点分类模型,对垃圾预处理后的评论数据做情感倾向性分类。最后,本文设计并实现原型系统,对实验结果进行分析,并以表格的形式展示结果。