论文部分内容阅读
当今时代是一个“信息爆炸”的时代,Internet为人们提供了大量的信息资源,在这些资源中,蕴含着大量有价值的知识。但是面对这些信息,人们在享受信息带来的便利的同时,也感到了不知所措,我们把这种现象称为“信息过载”,或者叫“信息迷失”。因此如何快速地帮助用户从众多信息中找出自己想要的信息成为用户的迫切需求。个性化推荐系统适时地出现了。个性化推荐系统是一种智能化系统,可以根据用户的兴趣向用户提供个性化服务。它根据一定的算法过滤掉多余的数据,直接向用户推荐有价值的物品。在很大程度上削减了用户搜索资源的开销。实际上,个性化推荐系统已经成为目前解决信息过载最有效的工具之一。协同过滤技术是推荐系统(Recommender System)最为核心的技术之一,也是目前应用最为广泛和成功的技术[1]。与很多传统算法不同,协同过滤与项目的内容无关,因此实现较为容易,现在已经被许多大型网站所采用。近年来,针对推荐系统的研究不仅仅局限于算法方面,也有许多在应用方面的研究热点。例如:电子商务、图书馆等,高校图书馆更是其中的热点之一。本文以协同过滤算法和高校图书馆为研究目标,意在解决协同过滤算法在应用中遇到的问题,如冷启动、用户满意度低等。针对推荐系统的协同过滤算法,我们在论文中做了以下几个方面的理论研究和应用工作:(1)综合学习了协同过滤领域的国内外研究,阐述了协同过滤的工作过程和基本类别,点明了协同过滤的基本思想和关键问题。(2)针对协同过滤的众多问题,提出了基于项目特征和用户属性相关的相似性计算方法;充分利用了高校图书馆内图书和用户自身固有的特性,避免了数据稀疏和冷启动等问题。(3)本文对传统聚类算法中的相关问题进行了详细地分析,针对性地提出了一种能够自动生成相对比较均匀分布的K个初始中心的改进算法;并在此基础上创造性地提出了匹配树的思想,进一步提高推荐精度。(4)针对用户评分稀疏性问题,结合基于项目的聚类算法和改进的相关相似性计算方法代替传统评分相似性查找邻居,避免了冷启动问题,缓解了新用户、新项目的难题。提高了推荐的精度和用户的满意度。综合上述的研究,本文提出了用户属性相似度概念及图书馆中的活跃相似度,并融入了多种算法的思想,最终形成了一种混合的协同过滤推荐算法。实验结果表明:改进的算法能有效提高推荐准确性,并在一定程度上缓解了冷启动的问题。