论文部分内容阅读
随着互联网的高速发展和社交网络的出现,信息出现了爆炸性地增长,传统的搜索信息模式已经不适合现在的格局,推荐系统应运而生。社交网络中对用户兴趣需求的个性化推荐服务是目前的一大研究热点,比如对用户兴趣挖掘,预警热点新闻舆论,社交圈发掘等有趣的研究,其中一个方向就是系统个性化推荐。传统的推荐算法虽然在个性化推荐研究领域中有一定的成就,但由于社交网络处于不同的背景下的复杂性,使传统的推荐算法在例如微博这种信息流社交网络中的推荐质量不高。而且由于不同的推荐目的,也存在不同的方法优化。通过分析现有的推荐算法和微博数据的特点后,提出了主题用户推荐模型。主要工作包含以下几个方面。(1)为了解决社交网络数据普遍存在数据的不完整和获取效率低、不同的推荐算法对数据获取维度要求存在差异的问题,本文根据研究的需要提出了一种基于新浪微博API的分布式爬取框架。在API接口调用的各种约束条件下,为获取更多更全的数据,制定了合理的接口调用策略。根据系统结构图和数据爬取流程图,可以看到该系统是采用并行的方式爬取数据,可扩展性非常强,并且解决了授权码过期自动验证和API接口频次调用完毕自动休眠的问题。(2)该模型借助主题模型LDA对微博数据进行潜在语义挖掘,与传统文本模型最大的不同是从主题的层次上面建立文本模型,通过LDA模型可以训练得到文档-主题的分布。我们通过LDA模型训练出每个用户的微博-主题分布集合,并转化为用户-主题的分布来刻画用户的兴趣爱好,实现对用户的兴趣挖掘。本文也通过对微博文本进行了规范化的处理并且根据微博数据构建表情词典、网络用语等多个词典,对文本的预处理和分词的效果显著。(3)为了对主题用户推荐模型中的主题用户做准确提取,本文通过研究得出主题用户普遍存在主题突出且用户影响力大的特点,结合用户-主题分布特有的分布规律和用户的被关注度两个方面提出主题用户提取模型。通过这两个主要特征建立决策树来划分普通用户和主题用户两个群体,普通用户作为推荐目标,主题用户作为推荐主体。(4)为了提高主题用户推荐的准确性和多样性,主题用户推荐算法结合基于内容的用户相似度、主题之间的关联分析和主题中的权威用户三个方面来对用户做主题用户推荐,该算法通过一定的策略对三个候选集合进行融合,得到最终的TOP-K主题用户混合推荐模型。本文通过对爬取的微博数据进行试验和测试来验证混合推荐模型的有效性和可行性。根据推荐算法的评估方法,将混合模型中各个模型的混合效果和随机推荐结果进行对比,效果有明显提高,在多样性和准确度上的表现都不错。