协同过滤推荐算法研究及MapReduce实现

来源 :四川师范大学 | 被引量 : 3次 | 上传用户:maxchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,数据信息呈现出爆炸式增长,互联网将人类带入了大数据时代。用户要在海量数据中挑选出自己真正需要的信息好比大海捞针,如何在众多信息中迅速挖掘用户感兴趣的关键信息并推送给用户,成为当下学界和业界共同关注的热点问题。近年来,推荐系统作为一种智能的个性化信息服务技术在国内外得到迅速崛起,并在电子商务、视频娱乐、社交网络等多个领域得到广泛应用。经过多年的发展,推荐系统已经衍生出基于内容的推荐、基于数据挖掘的推荐、协同过滤推荐等多种推荐技术。其中,协同过滤推荐技术是应用最为广泛的推荐技术。但是,协同过滤推荐算法存在着数据稀疏、推荐精度低等问题,特别在大数据背景下,协同过滤推荐算法的数据稀疏问题、推荐精度问题被进一步放大,使之成为推荐系统的发展和应用的瓶颈。基于此,本文完成了如下工作:第一,针对协同过滤推荐系统中的数据稀疏性问题,提出了基于专家用户和项目信任度的数据填充方法。该方法根据专家信任度值,选择评分数量多、评分质量好的用户作为专家用户。同时,该方法综合考虑项目评分数和标准差作为项目信任度的评估值,使信任度高的项目作为可行项目,并采用专家用户的评分对高信任度项目的缺失项进行填充,从而在保证填充质量的前提下有效降低数据的稀疏度,并通过实验验证该算法的有效性。第二,结合K-Means算法和基于项目的协同过滤推荐算法,提出了基于聚类和非对称权重混合相似度的协同过滤推荐算法(CFCA)。该算法首先完成了基于评分稳定项目的K-Means聚类,然后在类中采用非对称权重混合相似度进行相似度计算,并据此给出推荐结果。该算法综合考虑项目之间共同用户评分的交叠状况和项目的评分数,提高了相似度计算的准确性,进而提高推荐质量。针对本文提出的算法,论文完成了在不同条件下CFCA算法与传统协同过滤推荐算法的实验对比。实验结果表明,本文提出的算法,能够有效的提高算法的推荐精度。第三,为提高算法效率、降低算法运算时间,本文设计了CFCA算法MapReduce并行编程模型,并完成了该模型下数据预处理、基于评分稳定项目的K-Means聚类、基于非对称权重混合相似度计算和预测评分阶段的并行化处理。通过并行运算解决了算法处理的效率问题。
其他文献
一切实际存在的系统都或多或少地具有非线性。有些非线性是系统固有的,有些则需要利用电子器件的非线性来达到要求。因此,对非线性系统进行深入地分析,并研究它的控制方法,具有十
随着信息化技术的发展,汽轮机向着复杂化和多样化方向发展,其建模可视化也变得愈加重要。目前,国产汽轮机建模可视化水平不高、交互操作性较差、依赖性较强,国外相关软件虽然
随着信息和网络技术的发展,图像等媒体信息的记录描述、存储和传输都在朝着数字化方向前进,高效的图像压缩传输越来越受到人们的关注,因此,图像压缩技术成为国际上热门的研究
Internet技术的飞速发展推动了流媒体直播系统的广泛应用。用户量也随之而加速增长,人们对视听的质量要求也越来越高,而传统的基于C/S模式的流媒体直播系统存在服务能力的瓶
随着嵌入式技术的不断发展,嵌入式数据采集系统被广泛应用在电信、工业控制、航空航天、电网监测、电子商务等领域。这些应用领域的共同点是数据具有很强的实时性,要求底层的
随着信息技术的飞速发展,数据库应用的不断深化,数据挖掘已成为当今研究的热点。在数据挖掘的各个分支中,关联规则挖掘和分类挖掘是两个高度活跃的领域,其应用范围也非常广泛
混沌理论是非线性科学的一个重要的分支,它揭示了自然界与人类社会中普遍存在的复杂性,架起了确定论和概率论两个理论体系之间的桥梁。由于在不同的学科领域,特别是在保密通
MANET(Mobile Ad Hoc Networks)是由一组带有无线收发装置、同时具有主机和路由器功能的移动节点组成的一个多跳的、临时性自治网络,是一种没有有线基础设施支持的移动网络。
区块链从中本聪设计的比特币中诞生,随着比特币在全球的风靡,支撑其运行的区块链技术也被各国政府、企业和创新社区广泛地关注与研究。区块链技术以其去中心化,数据不可篡改,
P2P网络是目前研究最热门的技术之一,对于推动互联网的发展起了重要作用。相比于C/S架构其扩展性、容错性、系统性能都有显着提高。每个节点既作为服务器也作为客户端,作为服