论文部分内容阅读
随着信息技术的高速发展,尤其是移动互联网的兴起,网络视频数量剧增,人们对视频个性化的搜索需求在不断增加。如何从浩瀚视频信息中智能搜索用户感兴趣内容,同时挖掘出用户本身潜在的兴趣,减少用户搜索和选择的时间,是计算机领域及社交网络研究的重要课题,由此基于大数据的视频推荐技术应运而生。目前大数据环境下,视频推荐技术的研究取得了一定的进展,但仍处于起步阶段,相关的理论和技术还不够完善,面临着多方面的挑战,主要有以下几点:(1)协同过滤推荐算法在视频推荐中应用最为成功,但其扩展性不佳,用户打分矩阵稀疏和冷启动等问题,导致其推荐效率不高,难以有效地用于大数据的推荐。(2)用户间相似度计算效率较低,当用户打分矩阵极其稀疏时难以计算出用户与用户之间的相似度,容易导致目标用户最近邻难以被找到。(3)在大数据环境下,面临着如何将浩瀚的视频数据经过离线处理,并结合在线推荐以提高处理大数据的能力,保证系统良好的实时推荐性能。鉴于以上问题与挑战,本文尝试提出一些方法对现有推荐算法存在的问题进行改进,并结合大数据处理技术,构建一个基于云计算的视频推荐原型系统。主要工作包括:(1)针对协同过滤推荐算法存在的数据稀疏问题,采用一种聚类的用户搜索方法预先对用户集进行归类处理,然后目标用户在其所属的类簇里进行最近邻查找,极大地缩小了最近邻的搜索范围,有效地缓解了数据稀疏问题。(2)提出一种基于Mahout框架的视频推荐算法CF_PIU,通过结合User-Based和Item-Based的基本思想,采用一种计算用户之间相似度的新方法,并通过收缩相关系数优化用户之间的相似度。实验表明,CF_PIU算法在视频推荐质量方面优于UserCF等传统视频推荐算法。(3)基于Hadoop技术,采用MapReduce计算框架对推荐算法实施并行化处理,提高推荐算法的运算效率,增强算法的可扩展性。(4)设计并实现了一个基于Hadoop和Mahout的视频推荐原型系统,实现了视频打分数据提取、相似度计算、支持分布式处理、混合相似度推荐结果等功能。