论文部分内容阅读
以微博为代表的新型社交网络不同于传统网络,其信息传播和扩散主要依赖于海量用户之间的关系。如何使信息被更多的用户所接收,即用户影响力最大化问题,已经成为社交网络平台及其应用的研究热点。但是由于用户数据量巨大,传统集中式数据处理方式在海量数据集处理方面的高成本、低效率的限制,使得目前对于用户影响力的研究成果并不突出,平台上海量数据资源也没有得到充分利用。PageRank算法是由Google开发的用于评估页面等级的算法,该算法以页面的链出和链入情况来对页面等级进行评估。论文将社交网络用户之间的相互关注关系抽象为页面之间的链出和链入关系,将PageRank算法应用于用户影响力的分析研究中,并将用户追随者的质量,即追随者的影响力的情况也作为重要的参考因素。并以此,设计了一种改进的用户影响力评估算法——URank算法。论文给出了URank算法的设计思路和详细实现过程。粒子群PSO优化算法是一种群体智能算法,以其收敛快、易实现等优点受到学术界广泛的重视。由于用户影响力分析也是一种优化设计,因此论文提出一种基于PSO算法的用户影响力评估算法——PsoRank算法。算法综合考虑用户自身因素和其追随者质量对用户影响力的影响,扩展了常见的用户影响力评估算法所依赖的参考因素。该算法在对用户影响力进行评估时,以用户自身质量,即用户的粉丝数、发布信息的频率和信息被转发率/被评论以及用户是否认证等因素为基础,以用户追随者的质量为条件,并且将用户影响力增量因子作为算法的适应度函数来判断是否对用户的影响力进行更新。从多方面保证算法评估出的用户影响力的合理性和公正性。为了使提出的算法能够适应海量数据处理,论文提出将URank和PsoRank算法按照MapReduce分布式并行化编程模型将论文设计的用户影响力评估算法改编成分布式并行化程序。论文用真实的从新浪微博平台爬取的数据在Hadoop集群上对论文提出的分布式并行化URank和PsoRank算法进行实验验证。实验结果表明,相对于其它的用户影响力评估算法,论文提出的用户影响力评估算法可以更公正合理地反映用户真实的影响力大小。并且集群性能分析结果也表明,论文提出的并行化算法具有良好的加速比和计算效率比。因此论文提出的分布式并行化用户影响力评估算法较适合像新浪微博这样的大型社交网络平台。