基于MapReduce的好友推荐系统的研究与实现

来源 :北京邮电大学 | 被引量 : 12次 | 上传用户:yangrocpe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网Web2.0技术的兴起,视频网站、社交网站、微博等得到了广泛应用,用户在上网体验的过程中,产生了大量的数据。面对如此庞大的数据集,信息过量已经成为很多系统面临的问题。从海量数据中找到真正有用的信息,不仅能够帮助用户节省时间,而且还能带给用户更好的上网体验。现有的Web数据挖掘技术应用十分广泛,例如在电子商务中,利用用户购买和浏览的数据,挖掘出用户的购买喜好和购买趋势;社交网站中,通过分析用户的信息、发布的内容、评论等,挖掘出有价值的信息,从而为用户提供更好的服务;利用社交网络用户之间的关系,抽象出社交网络关系图,再通过分析社交网络关系图发掘出潜在的规律等。在这种背景下,本文基于云计算技术提出了使用大规模数据处理算法的用户好友推荐系统,且基于Hadoop平台设计并实现了该系统。本文讨论的用户好友推荐系统由数据采集、数据处理和策略推荐三个部分组成。数据采集模块抓取系统需求的用户数据,如社交网络中用户的id、用户好友的id、用户Follow用户的id等,用户数据存储在HDFS中;数据处理模块,使用并行的处理算法,处理在云计算环境下的海量数据,Dijkstra算法计算被推荐用户到其他用户的距离,PageRank算法计算所有用户在该社交网络中的影响力;策略推荐模块,利用数据处理模块获得的数据进行推荐,以用户影响力作为排序因素对被推荐用户好友的好友进行排序,按照此排序结果进行推荐。基于本系统,社交网站司‘以为用户推荐潜在好友,以增加用户活跃度及用户对社交网络的粘着性;用户可以认识新的好友,扩充自己的人脉,加大用户的影响力。另外,本系统以Twitter数据作为例子进行运算,实际上满足格式要求的数据,都能用本系统进行大规模数据的运算处理。本系统基于Hadoop平台设计,利用MapReduce计算框架实现了推荐算法,能够处理海量的数据集。
其他文献
近些年,云存储的出现对传统存储领域产生了深刻影响,是目前企业界和学术界共同关注的热点。但是目前学术界对存储的研究大都关注于带宽、安全及基础设施方面,很少放在云存储
近年来,随着数据库技术和网络技术的发展,C/S体系结构的应用程序逐渐成为主流 ,Internet及WWW也逐步成为获取信息的现实手段,而这些绝大多数是建立在历史上遗留下 来的,分离
该文首先阐述了基于WEB的管理信息系统发展的必然性及其特点,提出了基于WEB的MIS系统的结构,该结构由网络应用支撑、信息资源管理、办公应用和事务处理应用平台构成 .作者系
XML是W3C组织提出的一种标记语言,被广泛应用于跨平台之间的数据交互。而Twig模式查询作为XML查询的一种自然的表达方式,由于其在XML查询过程中的核心地位受到了广泛的关注。为
文章简要描述了计算机网络计算模式演化过程,分析了双层C/S模式的固有缺陷以及 三层/多层C/S模式针地这些缺陷而采取的改进措施,论述了Internet/Intranet环境下的三 层/多层C
逐渐成熟的客户/服务器计算方式自90年代以来又进一步把分布式计算技术推向了一 个新的阶段.NHK新情报系统是日本放送协会日常业务的新信息管理系统,采用了C/S结构进行系统构
由于物理设备成本和各种成像环境等限制因素,人们获得的图像分辨率不高。然而很多应用领域普遍要求高分辨率图像。超分辨率方法就是利用图像处理的手段从同一场景下的一幅或多