论文部分内容阅读
微博凭借其短小、实时、便捷和参与广泛的特点成为了最热门的在线社交网络之一。目前存在的微博网络研究主要关注其粉丝关系网络,而本文创新之处在于研究微博博客的转发网络,该网络由某一类具有相关主题的博文转发网络组成,能够表征出针对某一类微博事件,参与者在其中起到的作用,同时能够发掘出参与者之间的链接关系。本文研究主体为微博博客转发网络,研究该网络中相关网络数据的获取技术,研究该网络关键节点和关键链路的识别技术,并研制软件以获得具体网络中的关键节点和关键链路,具体内容:(1)首先运用网络爬虫技术爬取和主题关键字相匹配的微博博文,其次获取到微博用户转发该条博文所形成的博文转发网络。该转发网络中的节点为博文转发者,转发网络中的有向链接则为微博用户之间对该博文转发的关系。再次由于微博转发网络规模巨大,在每个转发网络中去除叶子节点得到第一次简化的网络。最后再把多个同类博文转发网络进行融合,得到关于该类博文的整体转发网络拓扑邻接矩阵。在该邻接矩阵中根据计算分析需要递归地进行第二次网络简化。(2)基于网页排名算法PageRank的思想设计出博客转发网络的PageRank值传递函数,结合博客转发邻接矩阵计算出每个转发者的PageRank值,排名靠前的就是关键节点,连接关键节点之间最短的有向链接就是关键链路。关键节点的识别算法中涉及博客转发网络环的化简,关键链路的识别使用了基于六度分割理论的多点最短有向路径算法。(3)基于上述研究成果,实现了微博网络关键节点和关键链路识别软件的研制。该软件分为三大模块:数据采集模块、数据处理模块和界面显示模块。分别对应了网络数据爬取与化简、关键节点关键链路识别和操作界面与网络拓扑图显示。通过系统的研究、设计、实现和测试,证明了该系统能够正确识别博客转发网络中的关键节点和关键链路。这为社交网络的监督、管理以及商业兴趣导向的分析提供了重要的参考依据。