论文部分内容阅读
随着信息的日益增长,个性化服务的需求越来越迫切,由于用户兴趣的不同和行为的差异,如何为不同的用户提供不同的服务成为一个具有挑战性的问题。
实现个性化服务的首要问题是了解用户的需要,对个性化服务系统来说就是跟踪与学习用户的兴趣和行为。实现个性化服务的关键问题包括:用户描述文件的表达与更新、资源的表达、个性化推荐和个性化服务体系结构。论文比较了不同个性化服务系统的特点和实现方式,这是了解个性化服务技术的发展、存在的问题、以及进行研究的基础,同时对个性化服务系统的设计与实现具有指导作用。
论文主要研究了用户兴趣的表达与信息过滤的算法问题。由于用户兴趣是多方面和动态变化的,因此,跟踪、学习和表达用户兴趣是一个最基本也是难以解决的问题。信息过滤技术可以分为基于内容的过滤技术和协作过滤技术,这些技术都已获得广泛的应用,但存在很多尚未解决的问题。
论文的主要成果包括:1.围绕基于内容过滤的基本问题,论文首先对比研究了传统的特征选取方法和基于模型的特征选取方法,然后提出了一种新的用户兴趣的表达方法。这部分工作的创新点在于:利用领域分类模型上的概率分布表达了用户的兴趣,给出了相似性计算和用户兴趣更新的方法,并设计了一个基于内容过滤的个性化搜索算法。与矢量空间模型相比,概率模型更好地表达了用户的兴趣和变化。
2.针对协作过滤存在的两个问题:数据稀疏性和可扩展性,论文提出了新的相似性计算方法和实例选择方法,获得了较好的结果。为了克服数据的稀疏性问题,论文提出了两个新概念:用户权威性和资源流行性,分别反映用户评价的稳定性和资源受欢迎的程度。基于这两个概念,提出了基于用户和基于资源的两种混合相似性计算方法,使协作过滤算法的预测精度得到提高。然后,通过利用资源的分类特性,提出了基于分类的相似性计算方法,从整体上刻画了用户之间隐含的相似性。为了提高协作过滤算法的可扩展性,论文提出了一种实例选择方法,不仅缩小了近邻搜索的范围,还去掉了不相关的实例,从而提高了协作过滤算法的精度和效率。
3.为了对比研究不同学习信息源的有效性,进行了基于Web日志的用户群的发现的研究。论文对比了三个具有代表性的软聚类算法:FCM(FuzzyC-Means)算法、EM(ExpectationMaximization)算法和MCA(MatrixClusteringAlgorithm)算法,得出如下结论:在聚类性能上,MCA算法最好,FCM算法次之,EM算法最差;在聚类质量上,EM算法最好,MCA算法和FCM算法各有千秋,当数据维数较小时,MCA算法较好,当数据维数较大时,FCM算法较好。
为了探索个性化服务系统的实现技术,论文设计并实现了一个个性化服务原型系统MyLibrary,提出了一个客户端和服务器端混合的体系结构,系统提供了个人信息、个人兴趣和个人书签的管理,并通过跟踪用户的行为来学习用户的兴趣,实现了个性化的搜索与推荐。