论文部分内容阅读
如今,越来越多的人热衷于使用社交网络平台获取和发布信息。而微博转发行为在社交网络中扮演着不可或缺的角色,通过微博的转发,信息可以迅速在大量的用户之间传播和分享,这极大地促进了信息的传播。微博流行程度预测问题作为社交网络相关研究中的一个重要课题,在热点挖掘,商业营销和舆论控制等领域都有很重要的研究价值。本文所做的工作是以逻辑回归模型为基准模型,对微博转发次数进行预测。本文中认为不同微博文本中所描述的内容之间的相似程度可以用于微博转发次数的预测,文中将它称为内容相似性。而对于内容相似性,既可以作为微博信息的一个特征,也可以作为预测模型的限制项,因此本文的主要研究内容有以下两个部分:文中考虑将微博之间的内容相似性作为一个微博特征,即内容相似性特征。对于计算某特指微博信息的内容相似性特征值,首先需要计算它与此微博作者其他所有的微博信息之间的文本相似度,然后提取相似度排名为前k名的作为其相似微博,最后计算k条相似微博的转发次数的平均值即为此微博信息的内容相似性特征值。而对于此方法,进行了编码实现,并基于大量的微博数据进行性能评估。从实验结果可看出,将内容相似性作为微博特征时,预测实验所得到的F1值要比不选取此特征时高出约4%,可见增加内容相似性特征可以明显提高转发次数的预测性能。文中还将内容相似性作为预测模型的限制项,即转发次数预测模型由逻辑回归模型和内容相似性限制项所组成。内容相似性限制项的作用是在学习训练参数的过程中,使训练集中的每条微博信息与其对应的相似微博的转发次数之间更加接近,从而提高预测的准确度。对于此方法,同样进行了编码实现。由预测实验所得到的结果可看出,添加内容相似性限制项后所得到的F1值约提高了1.2%。由此可看出将内容相似性作为特征的效果明显会更好一些。但总的来说,将内容相似性作为特征或预测模型的限制项均可降低预测误差。