基于社交网络的情感分析和兴趣挖掘的研究和应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:nayinian2688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和广泛应用,互联网数据呈现出爆发式增长态势,网民正以多种方式参与到这种新型的信息交互平台中。在这样的背景下,越来越多的学者开始参与到社交网络数据挖掘分析与应用的研究中。其中基于互联网数据的用户情感分析和兴趣爱好识别,是其中两项重要的研究内容。早期的学者多尝试词袋模型和简单的机器学习算法,随着语言模型的发展,相关任务的准确度还有很大的提升空间。另外,对于词嵌入和词语相似度的研究虽然有很多学者做了尝试,但很少有学者对兴趣之间本身的相似关系开展研究。本文的主要研究内容和贡献如下:(1)提出了一种基于BERT的情感分析模型BE-LSTM*。论文首先对语料文本做了预处理,再进行词嵌入和神经网络的训练,通过使用BERT语言模型实现词嵌入,再由循环神经网络LSTM进行分类。为了探讨BERT作为词嵌入模型对情感分类任务的影响,本文选择了 word2vec作为词嵌入基准模型。另外,本文使用了三个不同类型的数据集,在这些真实的数据集上的实验结果表明,基于BERT的语言表达模型结合神经网络比传统的神经网络具有明显的效果提升。(2)基于词嵌入对兴趣相似度展开了研究。提出一种改进的词语相似度计算方法——距离组合相似度(DCS),和基准方法进行了比较并观察该方法在公共数据集下的表现。然后通过收集LinkedIn用户的真实个人数据,使用标准化方法将多种表达形式的兴趣项整理成标准化兴趣项,并从中挖掘出高频的兴趣项作为研究对象,通过词嵌入和DCS相似度计算方法挖掘相似的兴趣项集合。(3)探索研究成果的应用。提出了一种基于兴趣相似度的兴趣爱好挖掘方法,将词嵌入和DSC相似度计算方法相结合,应用到社交网络用户兴趣挖掘中。设计对比实验验证了该方法可以解决传统方法泛化能力不足的问题,提升了兴趣挖掘的命中率。本文还介绍了基于大规模社交网络数据的用户分析系统并作了项目背景,系统功能等方面的阐述。通过将本文的主要两项研究内容应用于该系统,实现了包括情感分析,成员识别,兴趣爱好识别,用户关系分析等功能。本文提出的方法可以在网络中多种类型的评论信息里快速地判断用户的情感极性,并且可以佐证人类的兴趣之间存在有效的相似关系。研究成果不仅对社交网络中用户情感特征分析具有借鉴意义,同时也对兴趣推荐系统相关的商业领域有很大的应用价值。
其他文献
<正>我国现代会计文化体系的构建是基于对传统文化的继承和发展。我国传统文化主要发源于儒家的伦理思想,一般表现为人文文化。作为古代官方意识形态的儒家文化衍生出社会规
人工林是森林生态系统的重要组成部分,它不仅为社会发展提供丰富优质木材产品的供应,而且在调节碳平衡、缓解全球温室效应等环境问题上也发挥着重要的作用。中国是世界上人工
厌氧氨氧化是地球氮循环的重要组成部分,也是污水生物脱氮和环境修复的重要基础,释放到大气中大约50%的氮可以归因于厌氧氨氧化活动。作为厌氧氨氧化的执行者,厌氧氨氧化细菌
我国是一个历史悠久的统一的多民族国家,有丰厚的音乐文化遗产。我国的民族器乐也随着历史的发展而发展,在此,笔者结合历史对远古三千年前至今的器乐发展历史的阐述,展现我国
采用新型手工电弧粉末堆焊工艺方法,对冶金行业中易磨损零部件表面堆焊Cr,Mo,V,WC,B碳化物等高硬合金材料,以达到表面改性目的.使用证明,这一工艺方法制作的耐磨堆焊焊条与加
芽孢杆菌(Bacillus spp.)是土壤和植物根际的重要微生物成员,具有产生多种抗菌化合物、诱导植物系统抗病性及促进植物生长的能力。本研究以芽孢杆菌Can L-30为研究对象,明确其