论文部分内容阅读
随着Web2.0和移动互联网技术的快速发展和成熟,以Twitter、Facebook、新浪微博等为代表的社交网络已逐渐融入到人们的日常生活中。社交网络根据用户不同的功能诉求,将社会各个层次的特定用户聚集在一起,使得空间差异、时间差异等因素不再成为人们交流的障碍,实现了社会关系在虚拟网络上的延伸。随着社交网络的蓬勃发展,信息在社交网络中的传播变得更加普适和广泛,海量的用户可以方便的在社交网络中浏览新闻、关注热点、与好友或陌生人互动,每时每刻都可以通过评论、转发、发帖等行为表达自己多样的情感。虽然网络中的交流经常被认为是虚拟的,但情感会随着信息在网络中传播扩散,产生各种人与人之间的情感互动,甚至影响着网络用户在真实世界的行为表现。人类情感行为的研究一直以来都吸引着来自社会学、心理学、经济学、计算机科学等多个学科研究者们的兴趣,但由于人类情感的复杂性,研究者们也面临着种种挑战。社交网络中海量用户行为数据被实时记录,给了我们前所未有的研究人类情感行为的机会。社交网络用户群体的情感行为研究具有广泛的应用基础和重要的现实意义。本文以社交网络为研究对象,利用复杂网络理论和数据挖掘方法,对网络用户群体情感行为所涉及的若干关键问题进行初步探索和研究。主要研究内容包括:’用户分级别情感行为的分析建模仿真’、’基于多元情感的用户聚类分析’、’用户情感影响者发现模型’、’用户情感社团发现’。论文的主要工作和创新点如下:(1)基于新浪微博数据,提出了社交网络用户分级别情感发帖模型,并通过仿真验证了模型有效性。具体过程为:首先对用户微博内容情感进行分级,分析微博用户群体情感行为。分析发现社交网络用户群体在表达某一级别情感的发帖量均服从幂律分布,且幂指数随着情感级别趋向平和而增加,大部分用户通过微博表达情感时较为平和,需要表达激烈情感时,用户参与比例会减小。然后建立用户分级别情感发帖模型,该模型考虑了发帖用户受到周围情感环境因素的影响,以及自身情感的随机性变化。最后模型仿真验证了网络用户群体分级别情感发帖量服从幂律分布以及幂指数的变化趋势。(2)基于对社交网络用户多元情感行为的分析,提出了一种针对用户多元情感时间序列的相似性度量方法,并利用该方法对用户群体进行情感聚类分析。具体过程如下:首先利用多元情感词库提取出用户微博的多元情感向量,并构建多元情感时间序列用以描述用户情感行为。然后结合PCA相似性和距离相似性度量用户间的多元情感行为相似性,该度量既考虑了用户的情感波动,又考虑了情感表达强度。最后将该度量与经典的k-means聚类算法结合,提出多元情感聚类方法,并使用该方法发现不同用户情感群体,描述不同群体的情感行为特点。(3)基于社交网络的异质特点和网络用户间情感互动,提出了一种微博用户的情感影响者发现模型(EmotionRank)。具体过程如下:首先建立包含两种节点(用户、微博)和三种关系(转发、关注、发帖)的异质微博网络,然后利用微博情感相似性和用户多元情感行为相似性验证所构建网络的情感同配性,确认情感影响在该网络中存在。再利用两种相似性将该网络转化为只包含用户节点的同质网络,进而在网络中使用随机游走模型发现情感影响者。最后基于微博数据实验确认了该模型的有效性和优越性。(4)基于社交网络用户群体的情感同配性,可以确认网络用户会依据情感行为相似而链接聚集形成社团。本工作以社交网络拓扑结构为基础,提出构建了以关注用户间以及转发微博间的情感相似性为边权重的情感网络模型,再利用CNM和BGLL两种方法在用户情感网络中发现情感社团。为验证情感网络更适合发现情感社团,情感网络与利用其它三种网络节点相似性构建的三个无向有权网络以及一个无向无权网络进行了对比,情感网络与四个对比网络有着相同的网络拓扑结构和不同的边权重。对比实验结果表明利用情感网络所发现的社团内部用户之间的情感行为更加相似,用户间的转发微博有着更相近的情感。