论文部分内容阅读
微博是一个开放性和自由度比较高的互联网社交平台,人人都可以在上面发布和接收信息,由于微博信息体量的庞大以及极低的准入机制,给信息的交流带来了巨大的便利,同时也存在着大量的谣言。谣言产生与传播带来的负面效应,极大影响了国家、社会的和谐稳定和个人生活,因此如何能自动有效地识别出微博谣言,一直是相关领域的一个研究热点。传统的微博谣言识别研究主要被看作一个有监督学习过程的二分类问题,其工作重点在于相关特征的选择上,主要有基于情感词典的微博情感、用户属性等浅层次的特征,更深层次的特征并没有得到充分挖掘,如微博发布来源的可信度,微博评论的情感倾向以及微博传播的结构特点等,因而谣言识别的效果有限。基于此,本文分析了微博谣言从产生经传播最后到信息接收者面前的全过程,提出了一种基于深度学习LSTM模型的谣言识别策略,用于微博特定主题的谣言识别,具体工作如下:首先,本文提出了一种微博来源的可信度高低的界定方法。由于目前对于谣言的来源缺乏有效的鉴定和追本溯源的手段,本文从微博谣言产生的源头入手,根据发布微博的用户特征,给不同特征赋予可信度权值,构建界定微博发布来源可信度高低的方法。然后从微博社区公布的不实信息中采集特定主题的谣言信息,并采集其发布者信息以及评论和转发信息作为谣言集,同时采集正常微博对应的相关信息作为非谣言集,共同构成本文实验的样本集。其次,针对微博的相关评论和传播等深层特征,本文使用基于情感词典的方法来获得评论的情感特征,通过构建树形结构来模拟微博的传播结构,然后使用基于高斯核函数的支持向量机来训练模拟数据,从而得到谣言和非谣言微博不同的传播特征,然后将上述特征加入到谣言识别模型中,以提高谣言识别的准确度。最后,由于大量微博谣言具有明显的情感倾向,本文采用LSTM模型对微博文本进行情感分析,构建基于LSTM情感分析的微博谣言识别模型,通过对比高低可信度来源的微博语料在情感倾向上产生的冲突和差异,同时加入微博评论和传播特征来识别谣言。实验证明,上述方法对微博谣言具有较好的识别效果。