论文部分内容阅读
随着互联网技术的快速发展和广泛应用,互联网数据呈现出爆发式增长态势,网民正以多种方式参与到这种新型的信息交互平台中。在这样的背景下,越来越多的学者开始参与到社交网络数据挖掘分析与应用的研究中。其中基于互联网数据的用户情感分析和兴趣爱好识别,是其中两项重要的研究内容。早期的学者多尝试词袋模型和简单的机器学习算法,随着语言模型的发展,相关任务的准确度还有很大的提升空间。另外,对于词嵌入和词语相似度的研究虽然有很多学者做了尝试,但很少有学者对兴趣之间本身的相似关系开展研究。本文的主要研究内容和贡献如下:(1)提出了一种基于BERT的情感分析模型BE-LSTM*。论文首先对语料文本做了预处理,再进行词嵌入和神经网络的训练,通过使用BERT语言模型实现词嵌入,再由循环神经网络LSTM进行分类。为了探讨BERT作为词嵌入模型对情感分类任务的影响,本文选择了 word2vec作为词嵌入基准模型。另外,本文使用了三个不同类型的数据集,在这些真实的数据集上的实验结果表明,基于BERT的语言表达模型结合神经网络比传统的神经网络具有明显的效果提升。(2)基于词嵌入对兴趣相似度展开了研究。提出一种改进的词语相似度计算方法——距离组合相似度(DCS),和基准方法进行了比较并观察该方法在公共数据集下的表现。然后通过收集LinkedIn用户的真实个人数据,使用标准化方法将多种表达形式的兴趣项整理成标准化兴趣项,并从中挖掘出高频的兴趣项作为研究对象,通过词嵌入和DCS相似度计算方法挖掘相似的兴趣项集合。(3)探索研究成果的应用。提出了一种基于兴趣相似度的兴趣爱好挖掘方法,将词嵌入和DSC相似度计算方法相结合,应用到社交网络用户兴趣挖掘中。设计对比实验验证了该方法可以解决传统方法泛化能力不足的问题,提升了兴趣挖掘的命中率。本文还介绍了基于大规模社交网络数据的用户分析系统并作了项目背景,系统功能等方面的阐述。通过将本文的主要两项研究内容应用于该系统,实现了包括情感分析,成员识别,兴趣爱好识别,用户关系分析等功能。本文提出的方法可以在网络中多种类型的评论信息里快速地判断用户的情感极性,并且可以佐证人类的兴趣之间存在有效的相似关系。研究成果不仅对社交网络中用户情感特征分析具有借鉴意义,同时也对兴趣推荐系统相关的商业领域有很大的应用价值。