基于项目的协同过滤推荐算法改进及在Spark上并行化实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wwwenda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展和普遍应用,产生了海量互联网数据。在这个大数据时代,无论是信息消费者还是信息生产者都面临数据过载的巨大挑战,如何从海量的数据中获取有价值的信息是一项意义重大的研究课题。在这样的背景下,协同过滤作为缓解信息过载的关键技术之一出现在实际项目和研究中,现在一些大型电子商务和信息分发网站已经开始应用协同过滤技术。但冷启动、预测精度不高的问题依然存在,同时面对日益增加的数据量,传统单机在数据存储和计算上会存在性能瓶颈,无法满足用户现在的应用需求,而把推荐算法与分布式计算平台相结合的方式为解决这类问题提供了新思路。当前有很多分布式计算平台,其中基于Hadoop的MapReduce计算模型只提供了 Map和Reduce两个操作,该计算模型在计算迭代式任务中I/O的开销很大。Spark平台通过提供抽象的弹性分布式数据集RDD及依托内存的运算模型,恰好弥补了 MapReduce的不足,使其更好地适应海量数据计算的场景,成为了大数据处理方向的研究重点。本文主要研究传统基于项目的协同过滤推荐算法,引入项目属性特征相似度与用户项目评分相似度结合的方式对算法进行改进,以缓解由于数据稀疏出现的项目冷启动问题,在此基础上,通过引入用户行为的时间信息对算法进一步改进。最后在Spark平台上并行化地设计并实现优化后的算法,以提高算法的并行运算效率。本文主要研究工作主要包括以下几方面:(1)分析协同过滤算法中基于项目的协同过滤推荐算法的原理、算法流程以及存在的问题。(2)针对传统基于项目协同过滤推荐算法由于数据稀疏导致的冷启动问题及用户兴趣随时间衰减的问题,本文提出引入项目属性特征相似度与用户项目评分相似度加权结合的方式来缓解冷启动的问题,再把用户行为的时间信息加入到推荐模型中以提高推荐效果,通过实验表明,优化的算法比传统算法预测的精度更高,推荐效果更好。(3)最后把优化后的基于项目的协同过滤推荐算法在Spark平台上进行并行化实现,经过实验对比表明,在Spark上实现的并行算法并行性能更好,解决了算法处理大数据集的可扩展性问题,提高算法的并行运行效率。
其他文献
目的对全程人文关怀在手术室患者护理中的应用效果进行探究分析。方法选取本院手术室患者40例作为研究对象,根据护理方法的不同分为对照组和观察组,各20例,对照组给予患者常
随着90后新生代进入就业市场,酒店作为劳动力密集型行业,新生代员工所占比重越来越大。在酒店员工流失率居高不下、招工越来越难的行业背景下,心理契约理论在酒店人力资源管
【目的】本研究旨在探讨股四头肌抗阻运动对AECOPD患者疾病康复的影响,进而为今后对AECOPD患者开展标准化、规范化的运动干预指导提供思路和参考依据。【方法】本研究采用前瞻性研究,选取2018年5月2019年1月在海南医学院第一附属医院呼吸内科,住院治疗的AECOPD患者65名,随机分成对照组和运动组,其中对照组患者给予常规治疗和日常活动指导,运动组在对照组的基础上给予股四头肌抗阻运动,评估两组
加强和改进高校二级学院的党建工作,是高校贯彻落实党的教育路线、方针、政策的根本保证,是引领良好学风和培育优良校风的前提。在对高校二级学院党建促学风理论思考的基础上
深化重点国有林区改革,是党中央部署的重大改革任务。2015年2月,党中央、国务院印发《国有林区改革指导意见》,明确国有林区改革目标任务。现结合龙江森工改革推进情况做初步
为解决淀粉代替石油产品制取胶粘剂胶接木质材料后耐水性差的问题,该研究用玉米淀粉、聚乙烯醇、异氰酸酯和羧基丁苯胶乳等原料合成胶粘剂过程中各因素对胶接后湿强度的影响
在沪港通开通两年之后,市场期待已久的深港通终于在昨日正式运行。证券时报记者调查了解到,此前机构早已做了充足的准备,并陆续成立多只沪港深基金。$$QDII产品VS沪港深基金$$在
报纸
<正>每年9月,幼儿园都会迎来一批稚嫩乖巧、聪明伶俐的小班幼儿。相信每位幼儿园老师也都会遇上这样的经历:当家长离开后,有的孩子安静地坐在一处默默流泪,有的孩子大声哭喊
从凝聚“庭审中心”理念到促进社会治理创新,是由表及里的一种构建。立足庭审实际,或许可从以下环节采取一些措施和安排:一是转变庭审态度,从“替民做主”的“青天思维”转变
从化学成分含量偏差最小化和化学成分、矿物成分、不足微米颗粒含量、胶体指数等含量偏差最小化两方面出发,以最小化绝对误差和相对误差的组合形式为优化目标,分别构建陶瓷坯