基于矩阵分解的推荐系统算法研究

被引量 : 32次 | 上传用户:cnars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,互联网上的信息呈现爆发性增长,导致用户很难有效获取感兴趣的信息。推荐系统是帮助用户发现其感兴趣的物品,解决信息过载问题的重要工具。基于矩阵分解的推荐算法是目前推荐算法研究的前沿领域之一,基于矩阵分解的推荐算法将用户行为矩阵分解为隐因子空间上用户、物品特征矩阵,因而算法具有准确度高、可扩展性好等诸多优点。目前,基于矩阵分解的推荐算法仍存在着对单类数据、稀疏数据推荐效果不理想以及并行化等问题。本文深入研究了基于矩阵分解的推荐算法,并针对其存在的问题提出了相应的改进算法,本文的主要工作和贡献如下:提出了一种改进的基于矩阵分解的单类协同过滤算法。在使用基于矩阵分解的推荐算法处理单类问题时,由于数据稀疏、缺乏负样本等问题导致推荐效果不理想。本文提出了一种基于物品相似度的正样本选择方法以及基于用户活跃度、物品相似度的负样本选择方法,前者解决了数据稀疏性的影响,后者提高了选择负样本的准确度,实验结果表明该方法能明显提升基于矩阵分解算法对单类问题的推荐效果。提出了一种稀疏概率矩阵分解推荐算法。概率矩阵分解是从概率角度看待矩阵分解问题的一种方法,但最早提出的概率矩阵分解算法和贝叶斯概率矩阵分解算法都假设用户、物品特征矩阵服从高斯分布,这在当今大数据、高维度、强稀疏的数据下是不适合的,本文针对这个问题,提出了使用更稀疏的拉普拉斯分布来代替高斯分布的稀疏概率矩阵分解算法及其并行化算法。通过在MovieLens以及Netflix数据集上进行的测试,我们发现稀疏概率矩阵分解算法在稀疏数据集上的表现要明显优于概率矩阵分解算法和贝叶斯概率矩阵分解算法,同时又因为拉普拉斯分布本身具有长尾特性,因而本文提出算法在发掘长尾物品方面的能力更好。提出了L1正则矩阵分解推荐算法。从概率角度来看,稀疏概率矩阵分解等同于加入了L1正则项的矩阵分解算法,但由于概率矩阵分解模型复杂、运行效率低,限制其在工业界的应用。在实际的推荐系统中使用更多的是基于优化的矩阵分解模型,为了切合实际,本文进一步提出了L1正则矩阵分解推荐算法并在Map-Reduce框架下对其进行有效的并行化实现,从而提高了L1正则矩阵分解的求解效率,有利于在工业界大数据推荐系统的应用。
其他文献
每每看到“六一居士”总会想起《醉翁亭记》中意不在酒却喝得醺醺然、头上插满鲜花还乐不可支的醉翁。随性,豁达,怡然自乐,这样的人生态度让人神往不已。世间事不如意者常八
期刊
<正> 钟一棠主任医师,出身于中医世家,悬壶甬城,行医50余年。钟老调入我院工作期间,与西医配合治疗肺结核大咯血取得了卓效。兹就钟老治疗肺结核大咯血的经验,介绍如下:
<正> 答:小儿慢性原发性血小板减少性紫癜以血小板减少,出血时间延长.皮下、粘膜自发性反复出血,病程超过半年为特证。本病的病因。目前尚未完全明了,一般认为是一种自身免疫
《野草》一直以来被看作是离鲁迅思想最近的文字,《题辞》则是《野草》中的第一篇,虽非其二十三篇散文诗之一,但被鲁迅归入《野草》而取名为"题辞",则独具特殊意义,本文就《
对唐钢新建600t/d麦尔兹石灰窑与原有麦尔兹石灰窑进行了比较,新建麦尔兹石灰窑做了工艺技术优化及操作方法调整,取得了较好效果。
目的探讨原发性低颅压综合征(SIH)的临床特征及MRI表现,提高对本病的认识和诊断准确率。材料与方法回顾性分析22例确诊为SIH患者的临床及MRI资料,总结、分析SIH患者的临床表
随着经济全球化的浪潮,国外的化妆品品牌开始登陆中国市场。象征品牌门楣的商标是叩响顾客心灵之门的第一块砖。化妆品商标翻译质量的好坏会直接作用于顾客的消费心理。本文
铝合金钻杆具有低密度、高比强度、无磁性以及良好的耐低温性能,在石油钻探、海洋钻探、极地钻探以及大陆深部科学钻探中越来越发挥着重要作用,有着非常广泛的应用前景。可热处
在过去的20年里,电信网络在带宽和数据处理能力方面迈出了飞跃性的一步,光缆能满足抗电磁干扰和大容量传输信号的需求。但是也存在一个巨大的问题,光缆识别困难的问题。随着
目的 通过对慢性肾脏病(CKD)Ⅲ期病例的中医个体化治疗,研究单病例随机对照试验在中医药临床研究中的可行性。方法 按照CKD分期标准纳入患者,合格病例采用单病例随机对照设