论文部分内容阅读
随着移动互联网信息的爆炸式增长和机器学习技术的不断进步,依托大数据的推荐应用的使用越来越广泛。然而大多数推荐应用的信息来源都只限于应用开发者设定的信息源,用户并不能对信息源进行选择,限制了信息内容的多样性。本文系统支持用户定制感兴趣的信息源,用户能更容易、更快速地获取感兴趣的信息。同时,系统还为用户提供基于大数据的实时热点词云显示、信息搜索和个性化推荐服务,使得用户获取感兴趣信息的难度进一步降低。论文主要基于目前流行的大数据技术,使用Spark大数据计算框架来分析和计算从网络获取的信息数据,构建用户行为日志采集和分析系统,对用户行为建模。根据信息建模数据和用户行为建模数据来做个性化推荐。该项目集成了各种技术,系统个性化的为用户提供了信息分类浏览、信息搜索、信息个性化推荐服务。信息分类浏览通过使用Scrapy-Redis分布式爬虫来获取Internet上的信息数据。将数据组织成结构化信息并写入HBase数据库以创建信息源库。使用TF-IDF算法提取出信息主题词并结合WordCould生成实时热点词云。信息搜索基于分布式搜索引擎Elasticsearch,根据用户的信息获取需求设计搜索接口。信息个性化推荐根据信息的主题分布向量和用户偏好行为向量的相似度来计算用户对待推荐信息的兴趣值。其中信息的主题分布向量基于LDA主题模型对信息源库中的信息进行建模,通过Spark分布式计算框架计算而得。而用户偏好行为向量通过使用网页埋点技术收集用户偏好行为日志,基于流处理技术实时处理用户行为日志并经过时间权重衰减函数计算而得。测试表明,系统运行稳定,没有明显错误,设计和实现方法可行有效。系统发布到测试环境待测试人员使用后,收到了良好的反馈,表明系统可以准确地向用户推荐感兴趣的信息,大大降低了信息获取的难度。