基于Spark的协同过滤算法并行化研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:tops881017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协同过滤算法是在推荐系统中有着广泛应用的算法。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了基于项目的协同过滤算法在Spark上的并行化方案。该方案利用RDD并行化计算的特点,通过合理设计RDD算子来实现对物品间相似度计算过程和评分计算过程的并行化,同时采用了RDD的缓存机制以及Spark中的广播变量来对一些重要的计算资源进行缓存与分发,从而提高计算速度。用Movie Lens公开数据集对基于Spark平台的并行化Item-Based协同过滤算法的性能进行测试,结果表明该并行化协同过滤算法在准确性以及时效性方面均有较好的表现。
其他文献
第一部分THSG的含量测定及初步探讨其时效及量效关系背景和目的:何首乌(Polygonum multiflorum Thunb, PM)作为传统的中草药,用于滋补及抗衰老已上千年,同样也用于润肠通便、
柠条塔矿属易自燃矿井,矿区内曾发生地面煤仓、周边小窑采空区、煤层露头自燃现象。该矿区地表漏风情况严重,容易引起采空区浮煤自燃,加强对该矿区自燃规律及特征温度的深入
利用137Cs示踪法研究了太湖流域不同地貌和土地利用类型的土壤侵蚀速率分布,初步估算了太湖流域的土壤侵蚀总量。结果表明,土地利用类型相同时,丘陵山坡中点的土壤侵蚀速率与
用天然存在且吸附能力较强的果胶包覆具有磁性的四氧化三铁纳米颗粒制备一种吸附剂-Fe3O4果胶磁性微球.通过红外光谱、扫描电镜对样品进行表征,并考察吸附时间、Cu2+的质量浓
以我国2009-2016年沪深上市公司数据为样本,探究了股价崩盘风险、信息环境对企业现金调整的影响。研究发现:股价崩盘风险越大,企业现金调整速度越快,且这种正相关关系对于分
脱氢枞胺是松香的重要改性产品之一,是歧化松香胺的主要成分,广泛应用于手性拆分、造纸、胶粘剂、涂料、选矿、石油开采、医药、农药等领域。它是含有三个手性碳原子的天然手性
在庄严的人民大会堂里,习近平总书记向大家频频挥手致意,中央政治局常委全体出席,王沪宁同志代表党中央致词充满关怀、嘱托与期待;在分组讨论会的会场里,大家激情四溢,欢聚、碰撞、
期刊
以C球为模板,通过水热反应制备中空结构TiO2;并通过液相渗入法与单质S复合,制备出锂硫电池正极材料TiO2/S复合物。利用透射电子显微镜(TEM)、X-射线衍射(XRD)、热重分析(TG)测试手
本文基于新凯恩斯开放经济DSGE模型及包含汇率偏好的泰勒规则,运用贝叶斯模型估计参数,考察了中国在汇率改革前后的经济环境及产出、消费和价格的冲击反应。结果显示:中国经
介绍了 Ti O2 光催化材料的催化氧化和表面超亲水性的原理 ,并着重探讨了其在表面超亲水性方面的应用 ,同时还分析了光催化剂应用的关键技术。