论文部分内容阅读
随着计算机网络的发展,网民数量日益增长,网民们越来越倾向于在社交平台上建立自己的交际圈,如新浪微博、人人网、腾讯微博、Facebook等。由于这些社交平台的开放性、随意性和实时性,网民乐于在这类平台上发表文本传达自身的情感和自己对于某件事的观点和想法。随着社交平台的普及,网民数量的剧增,大量的数据在这类平台上产生,仅凭人工来分析这些数据是不切实际的。因此如何有效地获取这些文本数据中的有用信息成为研究热点。舆情分析作为其中一个重要研究点对于了解最新的舆论热点,掌握舆论动向具有重大意义。而传统的舆情分析方法大多只是针对于文本信息,没有考虑到网络结构信息。因此,本文提出了一种融合网络结构和文本信息的舆情分析方法,主要工作如下:(1)在文本方面,考虑到情感分析能从大量文本中有效地提取有用信息,本文提出了一种混合的情感分析方法SAFCM(Sentiment Analysis For Chinese Micro-blog)用于解决中文微博情感分析问题。这个混合方法结合了自然语言处理的基本技术和机器学习来决定中文微博的语义倾向。首先,根据中文微博的特征构建混合词典,主要融合基本词汇、否定词、程度副词和表情符号。考虑到微博文本的随意性,微博文本中会产生大量的未登录词,根据这些词对文本进行情感分析是不可行的。因此,本文结合How Net和PMI(Pointwise Mutual Information)的方法扩展词典。其次,利用基于word2vec的方法获取中文语料库中每个词的向量表示。最后,利用SVM(Support Vector Machine)方法将语料分为正、负两类。该方法在多个数据集上被验证,实验结果表明,本文提出的混合方法是有效的。(2)在网络结构方面,本文提出了名为MDPSO(Micro-blog Data Particle Swarm Optimization)的方法来研究网络的结构平衡性。首先,将社会网络结构平衡问题看做一个数学优化问题进行建模。其次,根据结构平衡原理设计了一个新的能量函数。最后,针对标准粒子群优化算法在处理离散问题上的欠缺性,本文从离散的角度重新定义了粒子速度、位置的更新规则,以解决本文的离散优化问题。在真实数据集上的实验证明MDPSO是有效的,不仅可以分析网络的结构平衡性,还能找出网络中的不平衡边。(3)融合内容(1)和(2)提出了基于情感极性和结构平衡的舆情分析方法(POA-SP-SB,Public Opinion Analysis Based on Sentiment Polarity and Structural Balance)。首先基于SAFCM获取微博文本的情感极性和分析舆论事件的社会情绪,通过情感极性结果构建符号网络,其次根据MDPSO分析符号网络的平衡性,找出网络中的不平衡边,同时采用改进的Page Rank算法找到符号网络中的关键节点。根据社会情绪、不平衡边和关键节点相关政府部门或危机公关便可以采取相应的措施对舆论导向进行调控。最后为了验证SAFCM、MDPSO和POA-SP-SB方法的有效性,在真实的数据集上进行了相关实验与分析。实验结果表明本文提出的方法能很好地分析文本情感,并且可以找到舆情演化的重要节点和边,对这些节点的操作可以引导舆情朝着好的方向发展。