社交网络中的主题用户推荐算法研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:minifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和社交网络的出现,信息出现了爆炸性地增长,传统的搜索信息模式已经不适合现在的格局,推荐系统应运而生。社交网络中对用户兴趣需求的个性化推荐服务是目前的一大研究热点,比如对用户兴趣挖掘,预警热点新闻舆论,社交圈发掘等有趣的研究,其中一个方向就是系统个性化推荐。传统的推荐算法虽然在个性化推荐研究领域中有一定的成就,但由于社交网络处于不同的背景下的复杂性,使传统的推荐算法在例如微博这种信息流社交网络中的推荐质量不高。而且由于不同的推荐目的,也存在不同的方法优化。通过分析现有的推荐算法和微博数据的特点后,提出了主题用户推荐模型。主要工作包含以下几个方面。(1)为了解决社交网络数据普遍存在数据的不完整和获取效率低、不同的推荐算法对数据获取维度要求存在差异的问题,本文根据研究的需要提出了一种基于新浪微博API的分布式爬取框架。在API接口调用的各种约束条件下,为获取更多更全的数据,制定了合理的接口调用策略。根据系统结构图和数据爬取流程图,可以看到该系统是采用并行的方式爬取数据,可扩展性非常强,并且解决了授权码过期自动验证和API接口频次调用完毕自动休眠的问题。(2)该模型借助主题模型LDA对微博数据进行潜在语义挖掘,与传统文本模型最大的不同是从主题的层次上面建立文本模型,通过LDA模型可以训练得到文档-主题的分布。我们通过LDA模型训练出每个用户的微博-主题分布集合,并转化为用户-主题的分布来刻画用户的兴趣爱好,实现对用户的兴趣挖掘。本文也通过对微博文本进行了规范化的处理并且根据微博数据构建表情词典、网络用语等多个词典,对文本的预处理和分词的效果显著。(3)为了对主题用户推荐模型中的主题用户做准确提取,本文通过研究得出主题用户普遍存在主题突出且用户影响力大的特点,结合用户-主题分布特有的分布规律和用户的被关注度两个方面提出主题用户提取模型。通过这两个主要特征建立决策树来划分普通用户和主题用户两个群体,普通用户作为推荐目标,主题用户作为推荐主体。(4)为了提高主题用户推荐的准确性和多样性,主题用户推荐算法结合基于内容的用户相似度、主题之间的关联分析和主题中的权威用户三个方面来对用户做主题用户推荐,该算法通过一定的策略对三个候选集合进行融合,得到最终的TOP-K主题用户混合推荐模型。本文通过对爬取的微博数据进行试验和测试来验证混合推荐模型的有效性和可行性。根据推荐算法的评估方法,将混合模型中各个模型的混合效果和随机推荐结果进行对比,效果有明显提高,在多样性和准确度上的表现都不错。
其他文献
当前语义Web中基于本体的应用越来越多,这意味着本体越来越受到重视。本体的长处在于能提供语义信息,正是这一能力使得万维网更具丰富的内容,以及提供更多的功能。在万维网最
随着Web上数据信息量的不断增长,基于关键词的传统信息查询方式越来越不能满足用户的需要。本文提出了一种基于语义逼近的信息查询方法和分布式下的多代理同步更新策略,并进
随着互联网技术的迅猛发展,网络安全问题已经成为信息时代人类面临的重大挑战。网络安全问题产生的根本原因之_是因为操作系统或者应用程序存在的漏洞。消除漏洞的根本方法就
学位
故障诊断及纠错是离散事件系统研究热点之一。本文主要研究在控制器实施控制的情况下,如何对离散事件系统的故障实行纠错,使系统运行在可接受状态范围内的相关问题。本文通过
语言在人们的日常生活中扮演着重要的角色,是执行任务、完成工作的手段。语言有口语、书面语之分。在任何语言处理任务中,语料库语言学的研究都很有意义。一般来说,语料是组织好
随着社会智能化的提高和安全意识的加强,人脸检测与识别技术在近几年得到了高度的重视。这一课题是当前图像处理与分析的研究热点问题之一,在身份鉴别、安全部门等领域具有广
工作流管理是信息时代的研究热点之一,己被广泛应用于多个领域;而工作流模型是整个工作流技术的重要内容。因此,本课题对工作流模型进行重点的研究与探讨。首先,对工作流、工
连续对象是指目标对象本身的体积和形态无法忽略,不能当做质点的一类对象,是目标监测中的一个重要应用领域。连续对象常伴随人类的生产生活,如水、气、雾等,而本文主要研究对
数据挖掘是近年来迅速发展的信息处理技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。