基于项目语义的协同过滤推荐算法研究

来源 :浙江工业大学 | 被引量 : 2次 | 上传用户:liongliong598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,推荐系统在互联网上的应用越来越广泛,也受到了许多专家学者们的更多关注。推荐系统是可以帮助用户从海量的数据中快速找到符合自己个性化需求的信息。然而,随着大数据时代的到来,使得现有的推荐算法面临着许多新的挑战,例如用户和项目数量巨增产生的数据稀疏性和可扩展性问题;新用户或项目刚加入到推荐系统中产生的冷启动问题。针对这些挑战,本论文进行了研究,其主要工作如下:(1)提出一种基于改进TF-IDF的项目语义表示模型。针对TF-IDF算法中仅统计特征词词频,未考虑特征词本身含义的不足,本论文利用特征词之间的语义相似性构建了计算语义词频的方法来改进TF-IDF算法,进一步加强了对项目描述文本有重要意义的特征词权重,然后结合word2vec模型加权平均计算整个项目的语义向量,使得项目语义特征更加鲜明,便于在语义上区分项目的差异。(2)提出了一种基于项目语义表示模型的矩阵分解算法。在矩阵分解的基础上,引入了额外的辅助数据项目描述文本信息,通过项目语义表示模型计算项目语义向量,然后在矩阵分解中假设了一种用户语义偏好潜在特征进行建模,从而实现了将项目语义融入到矩阵分解中,在预测评分中结合了用户语义偏好上的主观影响因素。通过实验证明了该算法提高了预测评分的精度,并有效地缓解了数据稀疏性的影响。(3)提出了一种基于补全评分矩阵的协同过滤冷启动推荐算法。在基于项目语义表示模型的矩阵分解补全评分矩阵的基础上,针对冷启动的问题,利用用户和项目固有特征的信息进行协同过滤冷启动推荐。利用用户属性信息和项目语义信息分别构建用户和项目的相似度计算方式,并通过聚类算法k-means对用户和项目分别聚类,根据聚类结果对用户-项目评分矩阵进行数据分割,将原本维度高的用户-项目矩阵分为多个维度较低的小矩阵,最后利用小矩阵中的数据进行协同过滤冷启动推荐。该算法不仅可以解决冷启动问题,而且还提升了推荐系统的可扩展性和实时性。
其他文献
在日常生活中,人们经常会看到由一维线栅、二维网格叠加形成的莫尔条纹。这种由两层或多层具有一定关联的结构叠加,出现了原结构中没有的宏观条纹,就是莫尔现象。自上世纪90
深埋隧道在高地应力条件下硬脆性岩体易发生板裂化现象,形成板裂状隧道围岩。板裂状隧道围岩的进一步破坏问题,给隧道工程的安全施工提出了严峻的挑战。为研究近直壁形隧道脆性裂隙围岩或近直立层状围岩,在地应力作用下的变形特性与机理,本文系统总结了板裂化后的隧道围岩的变形破坏特征的相关研究成果,在建立直壁形隧道围岩板裂群系列结构模型基础上,应用力学理论分析和数值分析方法,对侧壁裂板群变形破坏机理及其影响因素的
棉蚜(Aphis gossypii Glover)和棉长管蚜(Acyrthosiphon gossypii Mordvilko)是新疆棉田的混合种群,近年来二者在新疆南部棉田的发生动态及为害规律不断变化。本研究探索杀虫剂亚致死剂量对棉蚜和棉长管蚜种群动态、体内能量物质和蜜露排泄量、生命表参数和体内解毒酶活的影响,以期为棉蚜和棉长管蚜的合理调控及种间关系的变化提供依据。综合本研究内容,得到如下结果:
学位
随着城市地下综合管廊的兴建和PPP融资模式的大力推广,综合管廊项目中PPP模式的应用日益增多,其合同管理工作也日趋复杂繁重。为了提高综合管廊PPP项目合同履约率,确保项目成本、质量和投资目标的实现,开发适用于综合管廊PPP项目的合同管理信息系统成为了管廊项目合同管理的有效途径之一。本文通过分析综合管廊项目和PPP融资模式的相关理论及特点,建立了以综合管廊PPP项目公司为管理中心的合同管理信息系统。
作为一种主动成像技术,激光雷达已经成为现在目标探测领域的研究热点。Gm-APD(Geiger-Mode of Avalanche Photodiodes)阵列激光雷达,拥有单光子灵敏度与亚皮秒量级的时间分辨
目的:建立不同产地蒙药材悬钩子木高效液相色谱(HPLC)的特征图谱并测定其主要成分(咖啡酸、表儿茶素和鞣花酸)的含量,用于不同产地悬钩子木的质量评价。从悬钩子木中提取、分离纯化多糖,分析其单糖组成并进行结构解析。研究悬钩子木多糖组分对小鼠脾淋巴细胞免疫调节功能的影响。本论文将与前期质量标准研究相补充,形成较完整的蒙药悬钩子木药效物质基础研究,以期阐明悬钩子木―促疫热成熟‖功效与现代生物医学中增强免
目的:甲氧西林耐药金黄色葡萄球菌(methicillin-resistant Staphylococcus aureus,MRSA)是引起医院感染的重要多重耐药菌之一,能够引起手术部位感染及其他严重侵袭性感染。在过去几十年,社区获得性MRSA(community-associated methicillin-resistant Staphylococcus aureus,CA-MRSA)迅速传播,
棉花是中国重要的经济作物,目前主要采用地膜覆盖栽培模式提高棉花产量与质量,然而长期的铺地膜且清理地膜不够彻底,土壤中残留的地膜逐年增加,对土壤的健康状况造成了影响。为了解决残膜污染问题,通过研究降解膜等栽培模式来达到缓解残膜污染问题。本试验采用无膜栽培模式,研究南疆地区无膜栽培下20个不同棉花品种(系)的田间表现状况、干物质积累与分配、SPAD值、产量品质及田间适应性等特性,现得出如下结论:1、本
学位
GPS传感器的广泛应用产生了大量的移动对象位置序列,即GPS轨迹,对于构建智能交通系统,解决交通拥堵、环境污染等严重城市问题具有十分重要的价值和意义。然而,由于GPS定位精
特征值互补问题是线性代数中特征值问题的延伸,它和很多问题都有着非常密切的联系,例如非线性互补问题、可微优化问题、变分不等式等.它在工程及物理中有着普遍的应用,如对力