基于大数据平台的中文微博情感分析

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:email_97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的急速发展,微博依靠着它的个体性和及时性等特点,得以迅速发展并成为了网络用户用来分享和发布信息的重要载体。人们越来越多的借助于微博等社交媒体分享自己生活和情感,这就使得微博等社交媒体中出现大量携带主观色彩的信息,这些主观信息往往具有较强的情感色彩,对这些主观信息进行归纳分析能够获取很多知识和数据,对我们生活、工作带来帮助,因此对于微博的情感分析具有较大的价值和意义。目前,文本情感分析正在逐渐成为一个信息研究、挖掘和应用的热点。互联网的发展同时也带来了大数据时代的到来,在微博中,大数据主要是指,微博用户所发表的文字信息,以及上传的图片视频等数据。面对数据量庞大的微博数据以及复杂的计算算法,传统单机模式的情感分析方法难以准确快速的完成分析任务。分布式数据存储及分析方式的出现解决了单机模式的弊端,通过构建并行的存储与计算模式,使得文本分析的处理效率及准确性得以提高。本文实现了一种基于大数据平台的中文微博情感分析方法。首先,根据微博评论的特点,结合HowNet等现存权威情感词典,提出一种微博情感词典的构建与扩充方法;第一步,使用SO-PMI算法,通过点互信息计算出种子词与未登录词的相似度,进而初步判断出未登录词的情感倾向性;第二步,利用Word2vec工具训练样本集,通过词向量之间的距离计算出未登录词的情感倾向性;第三步,结合上步SO-PMI算法所计算出的结果得到未登录词的情感极性值,然后根据情感极性值将未登录词加入相应的情感词典中,完成情感词典构建与扩充。其次,设计实验,制定语义规则结合情感词典,对微博语料集实现情感分析,验证了本文所构建的情感词典在微博情感分析中的有效性。最后,使用SVM算法,搭建Spark平台,完成中文微博的情感分析:首先,使用本文构建的情感词典,编写程序,完成对训练集的自动标注;其次,对文本语料集进行特征选择及特征权重计算;然后,采用SVM模型实现中文微博情感分析;最后,将模型所得的实验结果与朴素贝叶斯算法结果及单机模式下的实验结果进行对比分析,实验结果表明,基于分布式Spark平台的中文情感分析方法可以较好的适用于大规模数据情感分析任务,对处理大规模的文本信息具有可行性。
其他文献
滨水景观是一个城市对外展示社会经济实力、人文历史风貌的重要舞台,随着人们夜间活动时间的延长和精神文化水平的提升,已经有越来越多的城市注意到了滨水区的重要性,滨水空
铜是一种用途十分广泛的金属,随着经济的日益发展,其市场需求量逐年增长。近年来铜冶金技术发展迅速,但我国铜矿石资源有限,导致出现铜冶金原料供应紧张的现象,铜矿品位从二
随着商业的不断发展,各种形式的商标进入人们的视野。2013年《商标法》在商标构成要素中,新增“声音”要素,而且改变商标元素的完全列举形式,表明我国开始重视非传统商标的保护。虽然萨塔商标案和阿迪达斯案曾引发人们对位置商标的讨论,但是在旧的商标制度下,位置商标明确是不能注册的商标。近期,北京市高级人民法院对鲁布托“红鞋底”商标案的判决引发各界对位置商标的关注,法院将涉案商标认定为“限定使用位置的单一颜
<正> 65-1-8号南瓜种子只有种仁而无种皮,故称裸仁南瓜。它是由山西省农业科学院周祥麟研究员选育的。其裸仁性状稳定,可代代遗传。1984年通过国家鉴定。65-1-8号裸仁南瓜在
产业集聚作为经济活动的一种普遍现象,在区域经济增长中的作用日益突出,已经成为经济学科重点研究的领域。产业集聚在特定区域形成,产生集聚效应作用于区域经济,促使区域内的
近年来,铁矿石价格连续上升,高品位矿石日趋枯竭,炼铁厂不可避免地使用越来越高脉石含量的原料,原料的恶化对烧结工艺有了新的挑战。在烧结过程中,复合铁酸钙(SFCA)是高碱度烧
针对适合在小空间运行的新型双臂翻板门的负载特性,设计基于ARM控制的直流无刷电机控制系统.采用磁场定向控制算法控制直流无刷电机的电机定子相电流,使之接近于正弦波,使得
目的:本实验旨在探索血红素加氧酶-1(HO-1)基因的表达水平与患者接受异基因造血干细胞移植(allo-HSCT)后发生急性移植物抗宿主病(aGVHD)严重程度之间的关系,并通过慢病毒转基
【背景】 卵巢癌的死亡率居妇科恶性肿瘤首位,70%的患者就诊时已属晚期,且多因转移而死亡,因此探讨肿瘤浸润转移分子作用机制和基因治疗成为目前卵巢癌研究的热点。CD147属免疫