微博信息传播模型研究与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hmglz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博(例如Twitter和新浪微博)作为一种发展迅猛的在线社会网络(Online SocialNetworks,OSN),已成为当前重要的互联网信息分享和内容推荐平台,并引领了一种完全不同于传统的“口耳相传”的信息传播途径。微博信息被广泛应用于互联网舆情分析以及信息推荐等众多领域,因此,微博信息传播研究成为当前在线社会网络研究的热点。  当前微博信息传播模型研究主要包括三个方面:微博信息采集,微博行为分析建模以及微博模型应用。由于微博平台数据量巨大,完整数据集不易获取和处理,如何设计一个高效且无偏的采样算法是进行微博信息传播研究的重要前提。由于微博的信息传播过程是一个综合了话题转发概率随传播过程递减效应、微博网络自身的拓扑结构以及微博信息传播参与者特性(例如粉丝数)的复杂过程,而传统的线性阈值和独立瀑布等信息传播模型不能准确地刻画微博的信息转发过程,分析并设计一种全新的信息传播模型来描述微博平台的信息传播模式非常必要。最后,对于微博平台话题与传统搜索引擎的关键词之间的相关性分析仍缺乏完善的分析论述,微博信息传播模型的应用场景不明确。  本文分别从微博信息采样算法、微博信息传播模型以及微博信息传播趋势和搜索引擎平台的关键词搜索趋势相关性三个方面展开研究,论文的主要贡献和创新点如下:  1)针对已有的OSN无偏采样算法MHRW算法和USDSG算法在微博这类节点局部异配性明显的网络上会产生高自环率,从而降低了采样效率和样本质量的问题,设计了高效无偏采样算法。首先,将OSN采样过程抽象为马尔科夫过程,推导出OSN无偏采样的充分必要条件。基于该无偏采样条件,提出了一种新的无偏采样算法USDE。该算法在保证无偏采样条件的前提下,将MHRW算法和USDSG算法产生的过高自环率均匀分摊至不同节点之间的转移概率上,从而避免了采样过程中高自环率的出现,提高了采样效率和样本质量。实验结果表明,在不计重复采样的情况下,MHRW算法和USDSG算法的样本节点平均度数是完整网络平均节点度数的2到4倍,而USDE算法的样本节点平均度数则和完整网络平均节点度数保持一致。在采样效率方面,USDE算法的平均每个节点采样次数仅为MHRW和USDSG算法的50%。  2)针对线性阈值模型和独立瀑布模型对于刻画微博信息传播过程的不足,综合考虑了微博信息传播的三个特征:微博转发概率随转发跳数递减的时效性,微博网络本身的拓扑结构以及微博信息传播参与者属性,提出了一种新的信息传播模型—带衰减的Galton-Watson(Galton-Watson with Killing,GWK)过程,并在采集得到的Twitter和新浪微博两个平台数据集上分别验证了GWK模型对于微博信息传播过程刻画的准确性。实验结果证明,GWK模型能够拟合82%的微博转发过程中的信息接收用户数分布以及90%的最大转发跳数分布。另外,GWK模型的参数值可以合理地解释微博流行的内外因特征。  3)对比分析了微博平台的话题流行趋势和传统搜索引擎平台的关键词搜索趋势,并探讨了微博信息传播模型在在线搜索广告代理商市场的应用。实验发现了话题在两个平台的传播具有时间域和空间域的相似性,但是相比搜索引擎平台,话题在微博平台的传播具有一定的超前性和波动性。微博平台话题传播的这种特性展示了微博话题作为在线搜索广告关键词的可能性。本文对目前搜索引擎广告市场中比较流行的一类—广告代理商市场进行了经济学分析,发现了使用微博平台的热门话题和流行话题来补充加强代理商的广告关键词组合,能够在保持风险不变的情况下,将代理商最终获得的投资回报率提升4倍。  关键词:微博信息传播;高效无偏采样;带消亡的Galton-Watson模型;话题流行趋势
其他文献
可扩展和可容错是当前超级计算面临的两大关键技术。以千万亿次超级计算机的出现为标志,数值模拟已经进入一个全新的时代。一个高性能数值模拟程序可以使用数十万甚至数百十万
协商是商务贸易交往中的重要环节,智能协商主体代替人工协商可极大提高协商的效率。与人工协商相似,智能协商主体就某个特定议题能够展开协商必须具备三个基本条件:(1)共同的通
随着视频压缩技术的不断发展,其在航天任务应用领域发挥着越来越重要的作用,借助视频压缩技术可以高效地完成视频图像采集,减少信道数据的存储量,提高传输效率,有利于航天器
信息时代极大丰富的信息资源以及人们在工作生活中日益广泛的移动,使得人们越来越希望能够随时随地的访问网络.移动通信网和互联网的融合发展将积极促进下一代全IP移动网络的
Internet正从一个主要用于交换和共享信息的网络演变成为一个开放软件协同环境,未来许多应用系统的构建将依赖于Intetnet上海量的、自治的软件实体间的有效协同。如何针对此类
自上个世纪90年代初期开始,软件体系结构受到了学术界广泛的关注与重视,并被认为将会在未来的软件开发中起到重要的作用。随着软件体系结构研究的发展,体系结构模型中对系统行为
2003年3月-2004年12月,公司申获并完成了基于组件的嵌入式地理信息系统(国家863)项目,扩大了GIS的应用范围,与此同时,移动通讯设备,尤其是智能终端设备和GPS设备的迅速发展为GIS的
数字地震记录格式问题在理论上是一个简单的、而在实践上却是一个复杂的问题。数字地震记录开始于70年代初期,随着数字地震观测技术的不断发展,数据格式问题日益引起越来越多
Ad Hoc网络是一个没有任何中心实体的自组网络,它依靠节点间的相互协作自行成网,借助多跳转发技术来完成有限距离的传输。Ad Hoc网络具有组网灵活性、支持移动性、易于迅速展开
程序漏洞攻击威胁严重。随着计算机的广泛应用以及internet的深入发展,计算机软件的功能变得越来越强,程序代码量也惊人地增长,庞大的软件巨无霸将不可避免地包含软件漏洞。漏洞