基于实值条件受限玻尔兹曼机的推荐算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhuoluo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的飞速发展,信息产生的渠道多种多样,导致信息呈现爆炸式增长,如何从海量数据中获取到自己感兴趣的内容成为一大难题,为了解决这一难题,针对具体用户的推荐系统应运而生。推荐是根据用户历史行为信息,挖掘出用户潜在的个人兴趣,从而从海量信息中有针对的给用户推送其感兴趣的物品。本文重点研究了推荐算法中面临的数据稀疏性难题以及运用分布式计算框架解决推荐算法数据计算的效率问题。在其他以往解决数据稀疏性方案中,有两种思路,第一是基于数据填充方法,主要思想是借助其它信息建立有效的用户模型。第二是不借助其他数据建立模型,直接利用用户历史评分信息,通过矩阵分解、聚类、机器学习等对用户历史评分数据进行预处理。本文融合以上两种思路,把用户标签融合至实值条件受限玻尔兹曼机(Real-valued Conditional Restricted Boltzmann Machine,R_CRBM)模型,利用R_CRBM强大的拟合任意离散分布的能力,预测出用户对未交互商品的评分缺失值。具体来说,首先提出显层单元为实值的R_CRBM模型,接着运用文本分类中的TF-IDF算法预测出用户对所应用过的标签的喜爱度,与标签基因数据相乘得到用户对商品的预测评分,融合至用户历史评分数据中。R_CRBM条件层在原有评分/未评分{0,1}向量中,融入用户标签/未标签{0,1}向量。本文运用Spark分布式计算框架,对本文所提算法实现了并行化,提升算法时间效率的同时,运用更多的用户历史数据提高推荐的准确性。通过真实数据集MovieLens对本文所提的算法及算法的并行化进行了实验,使用RMSE以及MAE作为评价指标,运用10折交叉进行验证。模型预测以及Spark并行化实验结果表明,本文提出的算法较原有算法比较,提升了推荐的准确性的同时,提升了计算效率,有实际应用价值。
其他文献
在电力线路发生故障时,所产生的行波信号是一种多分量、非线性、宽广频带非平稳暂态信号,在一定时间与频带范围内存在大量的能反映故障点位置、故障类型、故障程度、故障持续时间等波形特征信息。单纯使用信号的时域或频域信息难以有效分析故障行波信号特征量。因此,准确、快速的对故障行波信号特征信息进行提取及分析,对输电线路保护具有重要的意义。论文首先详细分析了国内外信号的时频分析方法,总结了在针对多分量、非平稳信
随着塑料制品的广泛应用,塑料垃圾也随之日趋上升。而这些塑料垃圾最终都将进入环境中成为潜在的微塑料来源。尽管有的大塑料可以通过肉眼分辨出来源,但一些大塑料由于只是塑
甲状腺结节在临床中较为常见,随着生活节奏的加快和不良的生活习惯,其发病率也在提高。超声诊断是诊断甲状腺结节的常见方式,近年来,有一些机器学习的方法被用于甲状腺结节超
如今随着人们生活水平的提升,不仅仅满足于物质的需要,对精神文化的需求也显著提高。人们更加注重生命质量,群众的健身意识也随之大幅度提升。作为国家项目国球之一,羽毛球运
[目的]了解云南省文山州麻风的流行病学特征,探讨云南省文山州麻风的临床特点及患者死亡相关因素,为本省麻风的防治、控制麻风流行状况、降低麻风死亡率提供理论依据。[方法]
教师的指导语顾名思义就是教师对幼儿进行指导的语言,在集体活动中,教师的指导语言贯穿着整个活动,在这里我想探讨教师的指导语对教学活动有效性的影响。通过观察和实践,我发
随着网络视频的快速增长,用户快速准确捕获信息和管理感兴趣的视频内容的需求日益增长,工作强度越来越大。视频摘要作为一种快速感知视频数据集重要内容的技术较好地解决了此
随着汽车保有量的增加,传统燃油车带来的能源、环境等问题日益突出。电动汽车消耗可再生能源、能够实现能量的回收利用,已经成为汽车行业的发展趋势。电动汽车的核心在于三电
框架-核心筒结构广泛运用于高层建筑中。该结构体系中,核心筒作为主要抗侧力构件在结构设计中常被考虑为直接承受绝大部分的水平力。但是,地震响应通常是由结构的质量产生的,
随着现代铁路的高速发展,我国高速铁路运行速度已实现了350km/h运行,同时城市轨道交通也不断加大建设力度,城际列车的行驶速度也大大提升,试验线作为试验与检测列车运行安全