Spark平台上ALS协同过滤推荐算法研究

来源 :大连海事大学 | 被引量 : 8次 | 上传用户:wind503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新时代互联网与物联网技术飞速发展,人类产生的数据成指数式的增长。全球每天会产生大量的数据,如何快速的处理大数据为人类所用是我们亟待解决的问题,伴着大数据和数据挖掘技术不断的发展和成熟,我们处理数据的技术也日渐改善。推荐系统是一个根据用户的历史行为和平时的爱好信息,通过预测给目标用户推荐相关产品的一个应用。现在个性化推荐技术在我们生活中发挥着越来越重要的作用,并且被广泛的应用到电子商务、新闻推送、视频音乐的推荐等方面。在众多的分布式计算框架中,Spark所具有的高容错、可扩展和易用等特点,使它近年来备受关注。Spark是一种现在比较火的基于内存的通用并行化大数据计算引擎,因为它在迭代并行化方面的优势相当明显,因此被广泛地应用到大数据处理方面。本文主要研究了基于协同过滤的矩阵分解的交替最小二乘(ALS)算法,提出了一种ALS改进算法,并将其在Spark平台上进行实验。本文首先分析研究了 ALS算法原理,通过对它的特性的详细研究得出,Spark平台的并行性功能非常适合ALS算法的运行。我们在Spark平台上实现了 ALS算法,通过反复实验多组模型参数,多次比较性能指标MSE、RMSE、MAE的值,得到了 ALS算法的最优参数模型。紧接着我们分析了 ALS算法存在的一些问题,大量的迭代运算致使收敛速度较慢是ALS算法的一个不足,因此我们对此问题进行了改进,本文利用非线性共轭梯度算法(NCG)专门求解优化约束问题的特点来优化ALS算法,提出了一种ALS加速算法,通过融入NCG算法来减少ALS算法的迭代次数来加速收敛,以进一步减少推荐的时间,提高我们实时推荐的效率。最后,我们通过分析与实验证明,融合进NCG算法的改进ALS算法,迭代次数和运行时间都明显减少,预测准确度有了一定提升。性能指标RMSE的值相比ALS改善了 1.32%。
其他文献
本文总结了我院B超室自1991年以来应和B超诊断48例各种子宫先天发育异常的声像图特征.诊断出:先天无子宫、幼稚子宫、纵隔子宫、双角子宫、双子宫、残角子宫等类型,其中以双
目的:观察以人迎穴为主穴针刺治疗脑梗死后肩—手综合征的临床治疗作用方法:选择符合脑梗死后肩—手综合征Ⅰ期、Ⅱ期诊断标准的患者60例,按照随机化原则分为以人迎穴为主穴配
《伤逝》的百年解读认为子君的悲剧是由外在因素(社会或涓生)或者内在因素(子君自身)造成的。但在女性主义视角的观照下,这两者在无形中都为父权制思想所钳制。子君虽吹响了
分析了我国20世纪末迈入老龄化社会以来,养老问题成为学界关注的重点、难点的原因,认为我国的养老困局在本质上属于供需结构失衡所带来的问题,想要真正解决养老问题,就要在这
<正>我国证券公司在十几年的发展历史中.作为证券市场中的中介机构在证券市场乃至整个金融市场中发挥了重要的作用。但与此同时.证券公司在长期的发展中也存在着诸多问题并积累
<正>要养好分娩舍猪群,首先要弄明白母猪临产、哺乳阶段以及仔猪在哺乳和断奶阶段的生理特点以及管理要点,结合本地区的地理和气候特点以及本地区和本场猪群的疫病情况等,制
阿拉伯语言风格学的代表人物艾哈迈德·萨伊布认为:风格是文学家为了描写内心思想并将它以文学形式传达给他人时所采用的表意方式或表达方式;它是一种写作方法、一种创作手法
西方社会主义思潮开始传入中国时,学界曾经将传统墨学与之比附、比较,发掘传统墨学与社会主义的契合点。早期社会主义者普遍推崇墨学,将其牺牲、奋斗精神作为重要的本土思想
从视觉艺术的角度对色彩研究范围进行归纳,将色彩学归纳为:写生色彩、装饰色彩、色彩构成三种侧重角度不同的色彩学。对于色彩学习与研究而言,三种色彩学的思维模式不同,研究
奥姆普拉卡什·瓦尔米奇是印度著名的印地语达利特文学家之一,其自传体小说《残羹冷炙》用平凡而真挚的语言记录了他作为一名达利特种姓出身的印度教徒饱受歧视与压迫却充满