基于分布式的个性化推荐系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:spaiwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网信息的爆炸式增长和机器学习技术的不断进步,依托大数据的推荐应用的使用越来越广泛。然而大多数推荐应用的信息来源都只限于应用开发者设定的信息源,用户并不能对信息源进行选择,限制了信息内容的多样性。本文系统支持用户定制感兴趣的信息源,用户能更容易、更快速地获取感兴趣的信息。同时,系统还为用户提供基于大数据的实时热点词云显示、信息搜索和个性化推荐服务,使得用户获取感兴趣信息的难度进一步降低。论文主要基于目前流行的大数据技术,使用Spark大数据计算框架来分析和计算从网络获取的信息数据,构建用户行为日志采集和分析系统,对用户行为建模。根据信息建模数据和用户行为建模数据来做个性化推荐。该项目集成了各种技术,系统个性化的为用户提供了信息分类浏览、信息搜索、信息个性化推荐服务。信息分类浏览通过使用Scrapy-Redis分布式爬虫来获取Internet上的信息数据。将数据组织成结构化信息并写入HBase数据库以创建信息源库。使用TF-IDF算法提取出信息主题词并结合WordCould生成实时热点词云。信息搜索基于分布式搜索引擎Elasticsearch,根据用户的信息获取需求设计搜索接口。信息个性化推荐根据信息的主题分布向量和用户偏好行为向量的相似度来计算用户对待推荐信息的兴趣值。其中信息的主题分布向量基于LDA主题模型对信息源库中的信息进行建模,通过Spark分布式计算框架计算而得。而用户偏好行为向量通过使用网页埋点技术收集用户偏好行为日志,基于流处理技术实时处理用户行为日志并经过时间权重衰减函数计算而得。测试表明,系统运行稳定,没有明显错误,设计和实现方法可行有效。系统发布到测试环境待测试人员使用后,收到了良好的反馈,表明系统可以准确地向用户推荐感兴趣的信息,大大降低了信息获取的难度。
其他文献
现代信息技术是新时代科技发展的主流方向,它对教育产生的影响是当今世界各国非常关注的内容。现代信息技术在大学教育领域的迅速发展和广泛应用,对大学教育在教学理念、管理
电子商务作为新的商务活动要素,已经融入现代社会经济活动的方方面面,使得现代社会的各个领域都发生了深刻变化。"互联网?"行动计划的提出,指明了我国电子商务的发展方向。福
<正>英国作家毛姆说过,"自尊心是一种美德,是使一个人不断向上发展的一种原动力。"自尊心是个人对自己的一种态度,是要求自己受到别人的尊重。不允许别人歧视、侮辱的一种积
水电十四局在百色水利枢纽工程施工中集思广益、挖掘潜力、优化设计、精心施工,逐一克服洞室结构多样、形体变化复杂、洞室间隔强制约、施工工序多干扰、环境场地受限制等诸多
中国是世界上最大的发展中国家,能源消耗位列世界第一。为实现社会、经济的可持续发展,确保能源供应安全和降低环境压力,大力发展包括核能在内的清洁能源是能源发展战略的必
区别于其他大部分乐器是长时间的积累制造而成,萨克斯风从诞生至现在只有不到两百年的历史,萨克斯是当时欧洲音乐之都比利时的乐器制作大师Adloph Sax设计发明的。萨克斯管作