论文部分内容阅读
随着互联网和电影产业的迅猛发展,二者结合越来越紧密,电影推荐服务也应运而生,为用户在海量电影资源中做出合理选择提供了参考。当前业界主流的推荐服务主要依赖于不同电影之间关系的挖掘以及用户画像模型的构建。推荐系统根据用户以及相似用户的行为和特征,同时参考电影之间的关联关系,即电影间的关系图谱,为用户提供个性化推荐服务。然而,现阶段获取电影之间的关系图谱主要参考电影本身的标签特征,这种方法受标签特征数目以及特征粒度的影响,得到的电影关系图谱的置信度不高,降低了个性化推荐服务的准确性。网络影评包含了观影者丰富的情感和倾向,也包含了在语义和情感层面上不同电影的关联程度。本文以网络影评作为切入点,从文本中挖掘电影之间的关系。构建基于语义和情感倾向的电影关系图谱,则可以在挖掘电影间关系这个问题上降低对特征标签的依赖,从新的角度计算电影之间的关联程度,以此作为原有方法的有效补充,从而更好地为个性化推荐等后续服务提供参考和借鉴。本文以网络影评文本为研究切入点,基于pragraph2vec计算电影间的关系相似度,从而构建基于网络影评文本的电影关系图谱。本文主要工作总结如下:1.介绍了网络影评数据的获取方法和过程,包括种子链接和网络影评正文的抓取,以及如何高效应对目标网站的反爬虫策略,构建了一套基于轻量级爬虫框架Scrapy的网络影评数据获取系统,为整个系统提供了可靠的数据来源。2.在完成影评文本数据获取的基础之上,介绍了分词、构建词汇表和哈夫曼树等文本预处理方法。并针对本文应用场景,对文本预处理的过程进行了大量的优化和改进,为后续向量计算奠定了基础。3.向量计算部分,向量计算包括词向量计算和段落向量的计算。针对网络影评文本的特点以及特殊性,本文对词向量和段落向量的计算作出了相应的优化。采用模型融合的方法计算词向量,同时使用词性加权的方法改进了现有的文本向量计算方法,使之更加高效可靠。4.向量计算的基础之上,完成电影的关系图谱系统构建。为了验证本文的模型和方法切实可行,本文引入了传统的文本向量计算方法LDA (Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型来计算网络影评的向量,并在LDA主题模型的基础之上构建关系图谱。经过实验验证,文本引入和改进的文本向量模型,在效果上比基于LDA主题模型的计算方法提高10%。