论文部分内容阅读
随着互联网技术和服务的迅速发展,我们所生存的信息数据世界得到了快速的膨胀。然而,信息的快速膨胀带来了很多的问题,其中“信息迷航”和“信息超载”的问题越来越严重。解决这两个问题的方法可以分为以下两种:信息检索和信息过滤。信息检索是根据信息用户的需要,从按一定方式组织和存储起来的信息中,查找出相关的信息的过程和技术。信息过滤则是根据用户提供的过滤需求,从动态的信息流中将满足用户兴趣的个性化需求信息自动地挑选出来。信息过滤技术的一种重要的应用方式是推荐技术。推荐技术在电子商务领域得到了越来越广泛的应用,也得到了越来越多的研究者的关注。本文的研究对象正是推荐技术。虽然推荐技术已经发展了几十年,但是还没有达到完全成熟地步。现在的推荐系统所面临的主要挑战有精确度不高,伸缩性和实时性低,以及数据稀疏度高等问题。电子商务推荐技术的研究方向主要包括基于内容的过滤推荐和协同过程过滤推荐。另外,还有一些常用的推荐技术如基于关联规则的推荐算法、基于聚类推荐算法。本文较为详细地介绍了这些算法以及他们各自的优缺点。文章详细介绍了推荐技术中的协同过滤推荐算法。协同过滤推荐算法基于用户的评分记录,依据目标用户的最近邻,向目标用户推荐相似的商品项目。我们详细地分析了传统的协同过滤推荐算法的局限性。比如,当利用传统的相似度计算方法中的余弦相似度方法或相关系数相似度方法去处理用户评分表中的Null值时,推荐结果的正确性将会受到损害。针对Null值的处理问题,我们基于特征组合(Feature Combination)的思想,提出了基于项目协同推荐算法的Null值缺省值预测方法。另外,针对传统协同过滤推荐算法中数据的高稀疏度和低准确度问题,本文提出了基于用户喜好类型的用户评分表划分方法。该方法有效地减少了计算项目的空间,提高了推荐的准确度以及推荐系统的运行效率。之后,我们从实际生活和实验数据的角度,详细分析了这两种算法的可行性、有效性以及各自存在的问题。基于Null值缺省预测法和用户喜好类型划分法,我们提出了基于用户喜好类型的协同过滤推荐算法(User Favorite Type Based, UFTB)。同时,我们也从实验角度分析了UFTB算法的可行性和有效性,以及此算法所面临的主要问题。本文的实验部分首先针对我们提出的Null值缺省预测法和用户喜好类型划分法,进行了先独立再综合的分析和验证。我们先将用户喜好类型划分法应用在传统的协同过滤推荐算法中,并将其预测结果与传统算法的预测结果做比较。再将Null值缺省预测法应用在传统的协同过滤推荐算法中,并将其预测结果与传统的推荐算法的预测结果做以对比。最后,我们实验证明了UFTB算法的有效性。