论文部分内容阅读
在这个互联网+的时代,在线教育平台得益于大数据的快速发展和数据挖掘技术的日趋成熟,相对于传统教育有着明显的优势。特别是推荐系统的出现和发展,让个性化教育的实现变得可能。本论文致力于探索一个适用于图计算技术的推荐算法,并以在线教育平台的数据为基础,设计一个基于显式评分数据的个性化课程推荐系统。论文首先对推荐系统中常见的冷启动和数据稀疏性问题进行了详细讨论,包括概念说明,常见的解决方案简述以及对本论文提出的基于数据转化和学生团体的数据稀疏性解决方案进详细描述。优化版的解决方案会分两步对用户-项目评价矩阵进行丰富,在兼顾个性化特性的同时缓解数据稀疏性问题。接着给出了整个推荐系统的模块划分和详细设计,其中主要包括日志模块,数据处理模块和推荐模块。其中日志模块承担的是数据采集工作,主要采集的是跟评分相关的用户行为数据和部分用户属性数据。数据处理模块需要定义推荐算法所需的数据模型,包括评分二部图模型和用户属性特征向量模型,并针对日志模块提供的不同类型的数据采用不同的处理技术进行转化。在推荐模块则提出了算法组的概念,以此应对推荐系统冷启动问题以及在算法选择的层面实现个性化。然后对几种传统的推荐算法进行研究讨论,并分析各自的利弊以及其对于图计算技术的适用性。从而引出基于二部图的推荐算法,因其与图计算模型完美契合以及在时间复杂度上的可控性,被选做本论文构建推荐系统所采用的核心算法。接着详细地论述了本论文对于朴素的二部图算法所做的优化和改进,其中包括全新的随机游走策略,在影响因子列表中纳入节点度概念,优化评分影响策略,以及将基于用户的协同过滤算法中用户相似度的概念引入进来用以提高整个推荐系统的推荐效果。最后通过实验对比了基于协同过滤的推荐算法和本论文提出的改进版二部图推荐算法在各参数指标下的具体表现。从实验结果中可以看出二部图算法虽然稳定性略有不足,但在推荐效果上占据着一定的优势,具体来说二部图算法和协同过滤算法相比,准确率和召回率都有一定程度的提高。