论文部分内容阅读
大数据时代,万物互联的互联网+技术让信息更加共享化。电影产业作为大众娱乐项目发展迅速,影片数量逐年增加,电影信息过载现象日益加剧,用户很难在海量视频中寻找到喜好的视频观看。因此,如何提升用户体验,通过用户信息、影片信息、电影打分等资源数据分析构建用户画像,为每一位用户匹配感兴趣的影片成为业界视频APP和网站非常关心的问题。
传统推荐算法模型存在推荐精度不高、数据稀疏性、新用户冷启动等问题。为了解决推荐算法中的几个经典问题,本文提出了一种基于影片剧情文本数据、用户属性以及观看影片行为历史数据的混合电影推荐算法CBiLSTM-PMF+。通过聚类模型划分用户组,对每个用户组训练CBiLSTM-PMF+算法,提高实时响应能力。本文的主要工作分为以下几个方面:
第一,在用户行为的研究中,分析了用户个人属性信息(性别、年龄)会对影片偏好产生的影响,总结了用户的观影偏好和用户相似性;设计了用户属性特征和行为特征表示;使用K-means聚类算法对用户群进行分组,针对性地为相同电影偏好的用户人群生成偏好特征表示;将偏好特征表示作为CBiLSTM-PMF+算法中用户潜在特征模型的输入,提高推荐精确度;实现了新用户先聚类后推荐的观影模式,同时也较好地解决了新用户冷启动问题。
第二,在电影影片信息的研究中,采取爬虫策略获取影片简介语料,通过word2vec将文本语料的单词文本转化为空间词向量;构建了一种卷积双向长短记忆神经网络模型(CBiLSTM),融合多神经网络结构从词向量中获取电影文本潜在特征,生成文本特征表示模型表述影片信息,从影片简介这类非结构化数据中获取隐性特征,从而可以达到更精准的推荐效果。
第三,在用户对电影评分预测的研究中,提出一种以偏置约束概率矩阵分解算法为基础的混合电影推荐算法CBiLSTM-PMF+。该算法包括电影文本特征潜在模型、用户潜在特征模型和评分生成概率模型三个部分。通过对CBiLSTM-PMF+算法中用户和电影的初始化矩阵改进,将用户聚类模型和电影文本特征表示模型融合到CBiLSTM-PMF+中,模型可解释性强。
本文基于MovieLens基准数据集、AIV数据集以及IMDB互联网电影数据库获取的电影简介进行实验仿真和设计;对不同场景选取了不同的评价指标,采用判断评分预测偏差的评分准确度指标均方根误差来评价算法的推荐效果;采用判断影片推荐正确性的分类准确度指标准确率和召回率来评价聚类划分用户群的分类效果。仿真实验表明,与单神经网络混合推荐模型进行对比,本文构建的CBiLSTM模型可以学习到文本时序特征,更好得理解上下文语义,对电影推荐任务具有较大的帮助,也证实了结合文本局部特征和上下文时序特征进行特征融合的合理性;与现有经典混合推荐算法对比,本文提出的混合推荐算法CBiLSTM-PMF+精确度更高,对电影推荐的发展有一定的参考意义。
传统推荐算法模型存在推荐精度不高、数据稀疏性、新用户冷启动等问题。为了解决推荐算法中的几个经典问题,本文提出了一种基于影片剧情文本数据、用户属性以及观看影片行为历史数据的混合电影推荐算法CBiLSTM-PMF+。通过聚类模型划分用户组,对每个用户组训练CBiLSTM-PMF+算法,提高实时响应能力。本文的主要工作分为以下几个方面:
第一,在用户行为的研究中,分析了用户个人属性信息(性别、年龄)会对影片偏好产生的影响,总结了用户的观影偏好和用户相似性;设计了用户属性特征和行为特征表示;使用K-means聚类算法对用户群进行分组,针对性地为相同电影偏好的用户人群生成偏好特征表示;将偏好特征表示作为CBiLSTM-PMF+算法中用户潜在特征模型的输入,提高推荐精确度;实现了新用户先聚类后推荐的观影模式,同时也较好地解决了新用户冷启动问题。
第二,在电影影片信息的研究中,采取爬虫策略获取影片简介语料,通过word2vec将文本语料的单词文本转化为空间词向量;构建了一种卷积双向长短记忆神经网络模型(CBiLSTM),融合多神经网络结构从词向量中获取电影文本潜在特征,生成文本特征表示模型表述影片信息,从影片简介这类非结构化数据中获取隐性特征,从而可以达到更精准的推荐效果。
第三,在用户对电影评分预测的研究中,提出一种以偏置约束概率矩阵分解算法为基础的混合电影推荐算法CBiLSTM-PMF+。该算法包括电影文本特征潜在模型、用户潜在特征模型和评分生成概率模型三个部分。通过对CBiLSTM-PMF+算法中用户和电影的初始化矩阵改进,将用户聚类模型和电影文本特征表示模型融合到CBiLSTM-PMF+中,模型可解释性强。
本文基于MovieLens基准数据集、AIV数据集以及IMDB互联网电影数据库获取的电影简介进行实验仿真和设计;对不同场景选取了不同的评价指标,采用判断评分预测偏差的评分准确度指标均方根误差来评价算法的推荐效果;采用判断影片推荐正确性的分类准确度指标准确率和召回率来评价聚类划分用户群的分类效果。仿真实验表明,与单神经网络混合推荐模型进行对比,本文构建的CBiLSTM模型可以学习到文本时序特征,更好得理解上下文语义,对电影推荐任务具有较大的帮助,也证实了结合文本局部特征和上下文时序特征进行特征融合的合理性;与现有经典混合推荐算法对比,本文提出的混合推荐算法CBiLSTM-PMF+精确度更高,对电影推荐的发展有一定的参考意义。