论文部分内容阅读
随着互联网的急速发展,微博依靠着它的个体性和及时性等特点,得以迅速发展并成为了网络用户用来分享和发布信息的重要载体。人们越来越多的借助于微博等社交媒体分享自己生活和情感,这就使得微博等社交媒体中出现大量携带主观色彩的信息,这些主观信息往往具有较强的情感色彩,对这些主观信息进行归纳分析能够获取很多知识和数据,对我们生活、工作带来帮助,因此对于微博的情感分析具有较大的价值和意义。目前,文本情感分析正在逐渐成为一个信息研究、挖掘和应用的热点。互联网的发展同时也带来了大数据时代的到来,在微博中,大数据主要是指,微博用户所发表的文字信息,以及上传的图片视频等数据。面对数据量庞大的微博数据以及复杂的计算算法,传统单机模式的情感分析方法难以准确快速的完成分析任务。分布式数据存储及分析方式的出现解决了单机模式的弊端,通过构建并行的存储与计算模式,使得文本分析的处理效率及准确性得以提高。本文实现了一种基于大数据平台的中文微博情感分析方法。首先,根据微博评论的特点,结合HowNet等现存权威情感词典,提出一种微博情感词典的构建与扩充方法;第一步,使用SO-PMI算法,通过点互信息计算出种子词与未登录词的相似度,进而初步判断出未登录词的情感倾向性;第二步,利用Word2vec工具训练样本集,通过词向量之间的距离计算出未登录词的情感倾向性;第三步,结合上步SO-PMI算法所计算出的结果得到未登录词的情感极性值,然后根据情感极性值将未登录词加入相应的情感词典中,完成情感词典构建与扩充。其次,设计实验,制定语义规则结合情感词典,对微博语料集实现情感分析,验证了本文所构建的情感词典在微博情感分析中的有效性。最后,使用SVM算法,搭建Spark平台,完成中文微博的情感分析:首先,使用本文构建的情感词典,编写程序,完成对训练集的自动标注;其次,对文本语料集进行特征选择及特征权重计算;然后,采用SVM模型实现中文微博情感分析;最后,将模型所得的实验结果与朴素贝叶斯算法结果及单机模式下的实验结果进行对比分析,实验结果表明,基于分布式Spark平台的中文情感分析方法可以较好的适用于大规模数据情感分析任务,对处理大规模的文本信息具有可行性。