基于逻辑回归的微博流行程度预测

来源 :河南大学 | 被引量 : 0次 | 上传用户:louism123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,越来越多的人热衷于使用社交网络平台获取和发布信息。而微博转发行为在社交网络中扮演着不可或缺的角色,通过微博的转发,信息可以迅速在大量的用户之间传播和分享,这极大地促进了信息的传播。微博流行程度预测问题作为社交网络相关研究中的一个重要课题,在热点挖掘,商业营销和舆论控制等领域都有很重要的研究价值。本文所做的工作是以逻辑回归模型为基准模型,对微博转发次数进行预测。本文中认为不同微博文本中所描述的内容之间的相似程度可以用于微博转发次数的预测,文中将它称为内容相似性。而对于内容相似性,既可以作为微博信息的一个特征,也可以作为预测模型的限制项,因此本文的主要研究内容有以下两个部分:文中考虑将微博之间的内容相似性作为一个微博特征,即内容相似性特征。对于计算某特指微博信息的内容相似性特征值,首先需要计算它与此微博作者其他所有的微博信息之间的文本相似度,然后提取相似度排名为前k名的作为其相似微博,最后计算k条相似微博的转发次数的平均值即为此微博信息的内容相似性特征值。而对于此方法,进行了编码实现,并基于大量的微博数据进行性能评估。从实验结果可看出,将内容相似性作为微博特征时,预测实验所得到的F1值要比不选取此特征时高出约4%,可见增加内容相似性特征可以明显提高转发次数的预测性能。文中还将内容相似性作为预测模型的限制项,即转发次数预测模型由逻辑回归模型和内容相似性限制项所组成。内容相似性限制项的作用是在学习训练参数的过程中,使训练集中的每条微博信息与其对应的相似微博的转发次数之间更加接近,从而提高预测的准确度。对于此方法,同样进行了编码实现。由预测实验所得到的结果可看出,添加内容相似性限制项后所得到的F1值约提高了1.2%。由此可看出将内容相似性作为特征的效果明显会更好一些。但总的来说,将内容相似性作为特征或预测模型的限制项均可降低预测误差。
其他文献
为了探讨跨通道情境下同一种刺激序列中双任务范式与计时中断范式中位置效应和间断效应的异同,研究设计了实验1和实验2。实验1以2500ms和4500ms为目标时距,采用相同的刺激序
对比分析了地基激光和天基激光清除空间碎片系统的优缺点,结果表明更适合优先发展地基激光清除系统。对比分析了连续激光与脉冲激光的优缺点,结果表明脉冲激光在空间碎片清除
目的 :探讨短期胃肠外营养病人,采用输液加温联合液体敷料局部涂抹对外周静脉留置针PN输注病人静脉炎的预防效果。方法 :选择我院2015年10月至2016年8月,进行胃肠外营养的病
目的:探讨重型颅脑损伤患者的院前急救措施及护理方法。方法:将190例重型颅脑损伤患者随机分为两组,院前急救组102例经院前急救入院,对照组88例未经任何处理由家属直接送入医
目的:将病人办理入院手续的时间控制在10分钟内,为病人提供更加方便快捷的服务。方法:应用六西格玛的定义-测量-分析-改进-控制五个步骤对入院流程进行优化,采用Minitab进行
目的:研究益气活血解毒方对幼龄自发性高血压大鼠内皮功能的影响,探讨益气活血解毒方预防高血压病的机制。方法:雄性6周幼龄自发性高血压大鼠(SHR)16只随机分为益气活血解毒
<正> 英国《牛津英语大词典节本》(The Shorter Oxford EngliSh Dictionary)两卷本,初版于1933年。1936年出了第二版,1944年第三版。其后又印过十六次,并有所订正或增补。197