论文部分内容阅读
随着互联网进入web 2.0的时代,出现了越来越多的社会化网站。这些社会化的网站互相模仿借鉴,使得网站提供的服务相似程度很高,网站的同质化加剧。因此需要分析网站的用户的特点,根据用户的特点,有针对性的向用户推出服务,使得用户可以获得更好的服务体验。而传统的基于数据仓库的社会网络分析工具,在用户数据管理和数据分析上存在着很大的困难,面临着难以管理异构数据和分析数据规模过小的问题。基于MapReduce的社会网络分析方法是很好的解决方案。本文提出了一套基于MapReduce的社会网络分析系统的研究与实现方案。本文提出了基于MapReduce的社会网络分析系统设计方案,包括进行社会网络分析所需的数据获取,数据格式转换,图处理和社会网络分析算法的设计,实现了进行社会网络分析的完整过程。数据获取使用网络爬虫从社会化的网站上进行数据抓取,分析网站URL的特点,通过对网络爬虫的配置文件进行设置,实现内容的精确抓取。基于MapReduce的社会网络分析系统设计方案中,设计了图处理系统。进行社会网络分析,将社会网络抽象成一幅图后,需要对图中的节点和边等图数据进行处理,设计了图处理系统用于图数据的处理,向社会网络分析算法提供图数据处理能力,系统设计了图处理系统。图处理系统提供了从网络爬虫抓取的数据的数据格式向图数据格式的转换。在基于MapReduce的社会网络分析系统中,需要实现社会网络分析算法,用于对社会网络进行度量分析。本文介绍了基于MapReduce进行社会网络算法设计的思想,进行算法设计时的数据结构定义等,并以点度中间度为例,介绍了基于MapReduce的社会网络分析算法的详细设计和实现过程。本文中提出的基于MapReduce的社会网络分析系统经试验验证,运行良好,适于对社会化网站中的大规模数据进行社会网络分析。