论文部分内容阅读
在当今互联网高速发展与信息爆炸增长的时代下,人们容易出现信息过载等问题,难以获取有效信息并学得知识。为了解决信息过载的问题,个性化推荐系统应运而生。相比搜索引擎,个性化推荐系统更适用于用户需求不明确或无法准确用关键词描述的应用场景,例如我们常见的新闻资讯类、电商类、音乐类等应用。在实际应用中,大多数推荐系统一般采用协同过滤推荐算法,仅输入用户交互数据,存在着稀疏性问题与冷启动问题,在一定程度上限制了推荐效果。从根源上讲,数据的不完善是导致数据稀缺和冷启动问题的根本原因,因此本文引入知识图谱作为辅助信息,重点研究了知识图谱的分布式表示方法、基于知识图谱的个性化推荐算法。本文的主要研究内容如下:首先,对于知识图谱的分布式表示方法,本文介绍了现有图分布式表示方法损失了子图级别高阶相似性的问题。为此,本文提出了一种基于循环神经网络的知识图谱分布式表示模型KG-GRU,利用包含节点与关系的序列,对子图相似性进行建模,将关系与节点表示在相同的嵌入向量空间。此外,本文提出跳转或停留策略JUST,指导随机游走对知识图谱进行数据采样,避免了手动构建元路径以及节点类型分布不平衡的问题。然后,本文提出了两种基于知识图谱的个性化推荐算法:KG-CF和KG-GRU4Rec。基于融合内容的协同过滤算法思想,KG-CF直接将领域知识图谱中物品的分布式表示向量融合进物品相似度计算,即向传统的基于物品的协同过滤算法补充了物品的语义信息,从而提高个性化推荐效果。KG-GRU4Rec改进于本文提出的知识图谱分布式表示模型KG-GRU,实现了一个端到端预测用户评分的模型,避免了KG-CF的评分预测依然依赖用户历史评分数据的问题。最后,在实验阶段,本文以电影推荐为应用场景,选择了个性化推荐领域广泛应用的Movie Lens电影推荐数据集。为评估本文提出的上述算法模型,本文调研并实现了电影领域知识图谱的构建,包括从电影领域本体库的构建,电影相关数据爬取,到知识的抽取与存储。最后,本文通过链接预测实验证明了KG-GRU模型能够学习本文构建的电影领域图谱中实体与关系较为准确的分布式表示,通过Top-N电影推荐实验证明了KG-CF和KG-GRU4Rec推荐算法在命中率和平均倒数排名方面优于对比算法。