论文部分内容阅读
微博、论坛等社交网站因其表达自由、互动性强的特点,受到网民青睐。社交网络中含大量带有主观色彩的信息,如用户的喜怒哀乐、对于热点事件的看法等,如何利用好这海量信息,对于个人、企业、社会管理者都有重要的意义。由于社交网络数据具有内容短小、用词不规范、主题多样化等特点,不宜直接将传统的文本情感分类方法迁移到社交媒体上,应该结合用户关系网络和文本特点研究出专门针对社交网络的情感分析模型。本文研究社交网络背景下主题层面的文本情感挖掘。对于每个用户,给出其微博或者论坛中的文本内容和交互网络信息,要求判断出其在指定主题上的情感倾向。本文主要研究内容如下:(1)分析社交网络中的用户行为特征。首先分别为sinaWeibo和xiciEdu两个数据集构建用户交互网络全景图,对比二者。然后分析用户的发帖数量分布以及好友数量分布,总结用户的行为模式。最后分析同质性是否可以引申到社交网络分析中,即与其他用户相比,相互连接的用户是否更倾向于拥有相同的意见;在相互连接的用户中,有相同情感的用户是否多于情感不同的用户。(2)分析社交网络中主题层面的用户影响力。将用户影口响力引入情感分析,有效利用了社交网络的结构化信息,也一定程度上弥补了内容稀疏的不足。首先从半结构化的数据中抽取出关系网络,结合用户的发帖量、粉丝数、内容长度等行为特点,从两个方面来量化评价用户A在主题T上对用户B的影响力:用户A在主题T上的地位和用户A、B在主题T上的交互频度,从而为每个用户B计算出主题T上的高影响力用户集合UB,并将这一结果作为补充特征,融入到情感分类任务中。试验结果表明,相较于传统的仅依靠文本内容进行情感分析的研究,将结构信息引入可以提高情感分析的准确性。(3)提出社交网络中主题层面的情感挖掘模型SUSTM(Social-User-Sentiment Topic Model)。首先在LDA主题模型的基础上加入情感层,变成文档-主题-情感-词项四层模型,从而可以同时挖掘出用户的主题和相应情感。然后在得到的情感分布π的基础上,为每个用户i寻找最具影响力的用户,通过其情感分布来修正用户i的情感分布状况,为用户i指定情感标签。最后通过实验比较SUSTM、KNN和BP神经网络几种方法,结果表明本文提出的方法是有效的。