论文部分内容阅读
随着Web2.0的快速发展和移动智能终端的迅速普及,各种类型的社会媒体和社会网络不断涌现,正在深刻地改变着人们工作、生活和交流方式。基于在线社会网络的信息传播呈现出很多新特点,包括受众人员规模大、信息传播速度快、网络结构复杂、影响范围广、网络动态演化等。深入研究社会网络信息传播规律,有助于我们了解信息传播机理,预测信息传播态势,制定有效的信息传播干预策略。这对于企业制定市场宣传策略、进行品牌推广和在线广告投放等都具有重要商业价值。对于政府及公共安全部门而言,研究社会网络中的信息传播有助于掌握舆情态势、控制网络谣言、保障国家安全等。社会网络中的信息传播是一个复杂的动态过程,通常会涉及到多个因素,包括传播网络结构、信息内容特征、传播时间特征、用户属性等等,这些因素互相依赖,紧密耦合,为信息传播研究带来了不少挑战。这方面的挑战包括,信息传播网络结构复杂,信息内容呈现碎片化、口语化,噪音较多,传播现象纷繁复杂,传播数据提取难度较大等等。社会网络中的信息传播研究涉及到多个方面,其中的关键技术包括:信息传播机制或者模型研究、信息传播网络结构研究、信息传播最大化研究以及信息传播暴发检测研究等。本文针对以上几个核心问题,展开系统深入研究,主要研究内容和成果包括:(1)社会网络中的信息传播机制分析:提出了一个基于节点属性和信息特征的细粒度信息传播模型。这部分主要从微观层面研究节点之间信息传播机制,信息传播受哪些因素影响以及这些因素的影响因子。首先从多个维度提取信息传播的特征,包括节点属性特征和信息内容特征,然后对节点间传播概率和传播延迟进行建模,提出一个细粒度的在线社会网络信息传播模型。最后利用随机梯度下降算法,学习模型中的各个特征的权重,深入分析了影响信息传播的主要因素,包括信息内容、节点兴趣偏好和网络结构等。基于该模型,还可以预测信息在网络中的传播态势。在新浪微博真实数据集上的实验表明,在预测准确率方面,该模型要优于其他同类模型,如异步独立级联模型、NetRate模型。(2)未知传播网络结构学习和传播路径还原:提出了一种基于多维异构特征的未知传播网络学习和传播路径还原算法NIMFC。现实生活中,很多时候我们能观察到网络中的传播现象,也即不同节点在不同时间获知(感染)了目标信息(传染源),但潜在的传播网络结构是未知的,信息的最初来源和信息传播路径也不能直接观察得到,需结合有效方法学习得到潜在的传播网络结构,这包括网络中节点之间的连接状态以及基于该连接的信息传播速率。本文提出了一个未知传播网络结构学习算法NIMFC,该算法融合了多维异构特征包括信息级联的时序特征和拓扑特征、节点属性、信息内容等,来推断潜在传播网络结构,包括网络连接状态以及与连接相关的信息传播速率。另外,基于网络推断算法NIMFC,还可以还原信息传播路径。在人工合成数据集和新浪微博真实数据集上的实验表明,对于传播网络连接推断、信息传播速率推断以及信息传播路径还原三个评价指标,本文所提出的NIMFC算法均优于同类型算法。(3)信息传播最大化:提出了一种数据驱动的信息传播最大化算法GA-LIM以及话题敏感的信息传播最大化算法Topic-Max。针对主流贪心算法在解决信息传播最大化问题时运算效率低的问题,本文充分利用社会网络中信息传播数据,基于数据驱动的方法,提出一个基于局部影响力模型的贪心算法GA-LIM(Greedy Algorithm based on Local Influence Model)。具体而言,首先利用选举算法,将历史传播数据中的每次传播行为视为一张选票,节点间的传播概率由选票多少决定,从而构建有向带权传播网络。然后,根据影响力局部性原理提出了局部影响力模型来度量节点影响力,在不影响算法精度的同时可以大大降低计算复杂度。最后采用贪心算法来获取目标节点集。在此基础上,考虑到话题因素对信息传播的影响,相同节点之间对于不同话题的信息可能存在不同的传播概率,本文进一步提出一个话题敏感(topic-sensitive)的信息传播最大化算法。将信息传播行为在话题层面进行解析,对于每一个话题,单独构建出一个带权传播网络,通过贪心算法得到与话题相关的k个目标节点。这两个算法结合了贪心算法和启发式算法各自的优势,在保证计算精度的同时,有效提高了运算效率。(4)信息传播检测中目标节点选择策略问题:提出了一种基于节点传播能力的传播暴发检测算法DiffRank。本文结合网络结构特点、节点属性、传播数据、检测成本等信息,提出一个基于随机游走模型的传播能力排序算法DiffRank,根据该算法的结果选择传播能力最强的top-k个节点作为观察节点来检测网络中可能出现的信息传播。基于新浪微博真实数据的实验结果表明,与其他同类算法相比,DiffRank算法在检测覆盖率、检测时间和信息感染人数下降比率三个指标上,都优于同类算法。在算法的可扩展性方面,DiffRank算法更加适用于并行或分布式计算,可扩展性更好。