论文部分内容阅读
信息技术的飞速发展引发了全球数据的爆发式增长,大数据时代的到来也伴随着“信息超载”现象的出现。在众多推荐算法当中协同过滤推荐技术以其自身的健壮性和高效性,有效缓解了信息超载给人们带来的困扰,但在实际的应用中该技术同样也面临着一些迫切需要解决的问题,论文面向协同过滤推荐算法存在的冷启动问题和扩展性问题展开深入的分析与研究。首先,在算法冷启动问题上,论文通过一种混合算法实现协同过滤算法中聚类模型的构建,具体通过K-means聚类与改进的遗传算法相结合的混合算法自适应地获取聚类算法中的k值及初始的中心集,算法中引入轮廓系数作为遗传算法的适应性函数,根据新用户或新项目自身属性信息的熵值对其进行归类,在对应的聚类模型中进行相似度计算及近邻搜索,由最近邻居集的评价信息对新用户或新项目进行评价预测,并实现对新用户或新项目最终的推荐。其次,在算法扩展性问题上,聚类算法在一定程度上能够缓解该问题,在此基础上论文对协同过滤推荐算法具体的处理步骤进一步研究分析,结合当今信息技术中强大的云计算平台,采用该平台下应用最为广泛的MapReduce分布式框架来完成相关算法的并行化处理,以期进一步提高协同过滤推荐算法应对可扩展性问题的能力。最后,实验选取UCI数据集中的Iris数据集与Glass数据集对算法中用户和项目聚类模型构建的合理性进行了实验验证。除此之外论文在MovieLens数据集上进行了一系列实验验证,实验通过比较论文给出的算法和传统算法在处理冷启动问题上的MAE值来验证论文给出算法的有效性,并将论文给出的算法分别运行在传统单机环境和Hadoop集群上,通过分析算法处理的结果验证了Hadoop集群对于算法并行化处理的高效性。