论文部分内容阅读
随着互联网Web2.0技术的兴起,视频网站、社交网站、微博等得到了广泛应用,用户在上网体验的过程中,产生了大量的数据。面对如此庞大的数据集,信息过量已经成为很多系统面临的问题。从海量数据中找到真正有用的信息,不仅能够帮助用户节省时间,而且还能带给用户更好的上网体验。现有的Web数据挖掘技术应用十分广泛,例如在电子商务中,利用用户购买和浏览的数据,挖掘出用户的购买喜好和购买趋势;社交网站中,通过分析用户的信息、发布的内容、评论等,挖掘出有价值的信息,从而为用户提供更好的服务;利用社交网络用户之间的关系,抽象出社交网络关系图,再通过分析社交网络关系图发掘出潜在的规律等。在这种背景下,本文基于云计算技术提出了使用大规模数据处理算法的用户好友推荐系统,且基于Hadoop平台设计并实现了该系统。本文讨论的用户好友推荐系统由数据采集、数据处理和策略推荐三个部分组成。数据采集模块抓取系统需求的用户数据,如社交网络中用户的id、用户好友的id、用户Follow用户的id等,用户数据存储在HDFS中;数据处理模块,使用并行的处理算法,处理在云计算环境下的海量数据,Dijkstra算法计算被推荐用户到其他用户的距离,PageRank算法计算所有用户在该社交网络中的影响力;策略推荐模块,利用数据处理模块获得的数据进行推荐,以用户影响力作为排序因素对被推荐用户好友的好友进行排序,按照此排序结果进行推荐。基于本系统,社交网站司‘以为用户推荐潜在好友,以增加用户活跃度及用户对社交网络的粘着性;用户可以认识新的好友,扩充自己的人脉,加大用户的影响力。另外,本系统以Twitter数据作为例子进行运算,实际上满足格式要求的数据,都能用本系统进行大规模数据的运算处理。本系统基于Hadoop平台设计,利用MapReduce计算框架实现了推荐算法,能够处理海量的数据集。