论文部分内容阅读
随着网络信息的高速增长,为了解决信息过载和信息迷航所带来的种种问题,个性化服务已经成为信息领域研究的热点之一。个性化服务针对不同的用户采取不同的服务策略,提供不同的服务内容,用户兴趣建模是其关键技术之一。用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务的质量。本文针对用户兴趣建模进行了以下几方面的研究: 首先进行数据的采集。系统隐式地收集用户浏览页面和浏览行为作为用户兴趣建模的主要数据来源,在对页面进行预处理,抽取页面内容后,采用本文提出的适用于中文文本聚类的单文档特征提取方法——基于综合指标的特征提取方案来提取页面的特征向量。 其次,本文讨论了用户兴趣聚类的特殊性,指出了经典聚类方法应用于用户兴趣聚类时的不足,在基于图论的NEOREN算法基础上进行实验改进,提出了基于相似度阈值的聚类算法,实验证明,该算法能够显著提高聚类质量,有效区分孤立点,适用于用户兴趣聚类。 接着,本文采用细兴趣粒度与向量空间模型相结合的表示方法,并在此基础上进行扩展,给出了用户兴趣模型的形式化表示。在用户兴趣聚类分析的基础上创建用户兴趣模型;结合活跃度、关注度、遗忘因子对模型进行更新,生成长、短期兴趣;并给出了该模型应用于个性化服务时的推荐算法。 最后进行全面的模拟实验,通过实验分析表明,本文提出的用户兴趣模型能够比较全面的描述用户兴趣,准确地跟踪用户兴趣变化,具有良好的效率。