论文部分内容阅读
随着计算机科学和Web2.0技术的不断发展,互联网在我们的生活中扮演了越来越重要的角色,极大地丰富了人们的生活。然而互联网的不断发展产生了带有“噪声”和冗余信息的海量多媒体数据,使得用户对网络多媒体资源的选择和浏览变得愈发困难。本论文以社会化音乐(Social music)为例,面对网络音乐资源的爆炸式增长,如何从海量社会化音乐资源中为用户高效地推送其感兴趣的高质量音乐内容已成为国内外学术界关注的热点课题,具有较高理论研究价值和实际应用背景。本论文采用协同过滤为基础构建推荐系统,作为传统的推荐算法之一,协同过滤算法存在以下不足:1)协同过滤传统的二部图模型过于简单,计算精度不够;2)未能有效地利用社交网络把社交属性与推荐算法相结合,存在严重的冷启动问题;3)无法有效地平衡准确率和覆盖率之间的关系,两者其中之一过高或过低都会影响用户体验。针对这三个问题,本论文分别提出了三个算法:提出了基于标签的三部图推荐算法。传统的协同过滤所使用的二部图(用户-项目)模型仅依靠用户和项目之间的关系,精度不够且缺乏解释性,所以本文引入了标签元素,将二部图模型改进为三部图(用户-项目-标签)模型,以提高推荐系统的精度。本文还对标签进行降维处理,同时根据降维后每个项目的标签权重对音乐片段进行聚类,打造字典树型的索引结构,进一步减少推荐系统的I/O和CPU计算代价,从而优化推荐系统的性能。提出了基于社交网络的推荐算法。该算法将社交网络中社交关系这层属性融入了推荐系统中,弥补了传统的协同过滤中没有考虑社交属性的缺陷。以用户与用户在社交网络中的间隔半径计算信任度,以用户的历史行为数据计算兴趣偏好相似度,最后将信任度与兴趣偏好相似度相融合产生预测评分,挑选预测评分较高的用户进行协同过滤推荐,可以有效缓解无历史行为数据的用户的冷启动问题。提出了基于标签和社交网络的混合推荐算法。该算法将上述两种算法产生的音乐片段候选集以一定比例组合,进行混合推荐。可以将这两种算法带来的正面和负面效应进行有效地平衡,让其准确率、召回率和覆盖率都能够达到一个相对均衡、合理的水平。在实验部分,本文采用了准确率、召回率和覆盖率这三项指标为评价标准,针对理论部分设计了相应的实验。实验分析表明本文对算法所进行的改进是合理且有效的。