基于小样本数据的推荐方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:guohaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统通过分析用户的兴趣爱好,从互联网的海量信息中挖掘用户可能感兴趣或需要的信息资源或物品,从而为用户做出相应的推荐。目前主流推荐方法对于数据密集型任务有很好的推荐效果,但在某些实际场景中,因收集成本较高等原因而难以获得足够的数据,不充足的样本易导致过拟合、模型表达能力不足等问题,进而影响推荐效果。因此,需要研究基于小样本数据的推荐方法以缓解数据有效样本不足的问题。目前小样本学习已用于解决机器学习领域中模型因样本不足而无法得到充分训练的问题,在目标检测、命名实体识别、文本分类等多种任务中取得较大进展。在推荐领域中,尽管数据样本不足的问题存在已久,但还没有成熟的解决方案。在数据样本不足的场景下,其研究面临以下三个挑战:(1)正样本数量不足。庞大的物品、用户数量和极其有限的正样本数量将导致推荐系统中典型的数据稀疏问题,甚至导致用户或者物品冷启动问题;(2)信息量不够导致特征表示不准确。样本信息量不够导致特征提取不充分,如何从数量有限的样本中提取具有强表达能力的特征是一大挑战;(3)过拟合问题。基于小样本数据训练的机器学习或深度学习模型容易因正样本数量不足和信息量不够陷入对小样本的过拟合,导致对新样本的推荐能力下降。针对上述挑战,本文从数据量不足和信息量不够两个主要角度进行研究,解决模型训练时的过拟合问题,缓解小样本数据对推荐效果带来的负面影响。一是针对数据量不足的问题,本文以Web服务推荐中Qo S预测问题为研究对象,提出利用现有稀疏数据增扩训练数据集,通过算法生成伪数据来扩充原始数据集,从而缓解数据稀疏性问题;二是针对信息量不够的问题,本文以电子商务商品推荐问题中的商品评分预测任务作为研究对象,利用商品的评论文本作为信息补充,提出一个增强的原型网络模型,实现训练场景和测试场景的匹配,设计特征编码器提取强表达特征,解决极少样本情况下的模型训练问题。本文的研究工作主要包括以下3点贡献:(1)提出了一种基于数据增扩的推荐方法。为了缓解服务推荐中数据量不足的问题,本文使用现有稀疏数据来增扩训练数据集,从而增加数据密度,提高模型预测的准确性。该方法包括两个主要步骤:首先,使用基于欧式距离的相似度度量的方法选择出近邻用户,并将近邻数据增加到原始数据集中;然后,基于增扩后的数据集对模型进行训练来实现服务推荐,该方法中使用的模型可以任何基于神经网络的推荐模型,本工作中推荐使用神经协同过滤模型。(2)提出了一种基于评论文本原型网络建模的推荐方法。针对小样本环境下信息量不足的问题,本文提出将商品的评论文本作为补充信息,利用原型网络和自然语言分析的方法,在用户交互商品数量不足的场景下提高推荐准确性。具体来说,首先,将用户对商品的评论数据随即划分为支持集和查询集;其次,将支持集中的评论信息特征进行聚合并获得一个聚合中心;接着,查询集中的评论信息特征与聚合中心进行比较,通过优化模型使得两者距离缩小。训练完成后,模型根据用户现有的评论和待评价的物品的特征预测推荐评分。该方法的核心之处在于使训练场景和测试场景保持一致,利用评论补充信息,解决极少样本情况下的模型训练问题,来达到更好的预测性能。(3)本文的基于数据增扩的推荐方法在当前学术界广泛使用的Qo S公开数据集WSDream上进行了实验,在多种不同的稀疏度上与现有主流的Qo S预测方法进行了性能对比。本文的基于评论文本原型网络建模的推荐方法在Amazon和Yelp评论数据集上进行了实验,与现有主流推荐方法进行了性能对比,并对多个参数进行了分析。两个部分的实验分别从数据量不足和信息量不够两个角度验证了本文所提出的推荐方法能在一定程度上缓解数据样本不足的问题,并具有更好的推荐准确度。综上,针对小样本场景下的推荐问题,提出了一种数据增扩方法和一种基于评论文本原型网络建模的推荐方法,两种推荐方法从两个不同的角度去缓解推荐过程中数据样本不足的问题,达到提高模型推荐准确度的目的,最后通过实验验证了所提方法的有效性。
其他文献
最近几年,随着国家不断出台各类金融风险防范措施,限制了众多融资手段。股权质押以一种新型的手段成为大众进行融资担保的关注对象。截至2020年底,数据统计显示,在沪深两地,3347家企业在上市板实现了股权质押。另外,很大一部分的控股股东实施了一系列连续的质押操作,质押实际数目在30%以下的上市企业已经超过了其半数以上。以控股股东身份进行质押操作的企业占了总数的58.93%,有11.08%的上市公司质押
学位
我国早期资本市场IPO审核主要采取核准制,对上市主体资格和财务会计等方面要求较为严格,对于想要谋求上市的公司而言门槛较高。从20世纪90年代开始,我国部分公司为解决融资问题选择远赴海外谋求上市。然而,从2010年开始,中概股公司不时受到做空机构的突袭,股价也随之降低,中概股在海外市场的表现每况愈下,逐渐被边缘化。与此同时,我国政府不断深化国内资本市场改革,多层次资本市场结构逐渐形成。2019年,科
学位
长期以来,“高质量发展”一直是学术界和实务界讨论的热点。十三届全国人大第四次会议审议通过的《十四五规划和二〇三五年远景目标纲要》强调,高质量发展仍是我国“十四五”规划乃至更长时期经济社会发展的主题,关系我国社会主义现代化建设全局。2017年10月,党的第十九次全国代表大会首次提出“中国经济由高速增长阶段转向高质量发展阶段”。2021年3月,习总书记对“高质量”发展作出了新的论述,“高质量发展不只是
学位
汽车工业作为目前耗能较大的产业,存在着巨大节能和减排压力。在此背景下,汽车产业开始逐渐向新“四化”模式转型,对电动汽车相关的先进驾驶辅助系统(Advanced Driver Assistant System,ADAS)研究也正方兴未艾的进行着。其中自适应巡航控制(Adaptive Cruise Control,ACC)系统作为一种智能辅助驾驶技术也备受关注。传统的ACC系统主要维持一定的安全车距,
学位
学校所提供的课后服务在很大程度上解决了“三点半难题”,为家长解除了后顾之忧,同时也为“双减”政策的落实提供了良好的条件。而在开展课后服务的过程中,学校应该积极关注进城务工随迁子女这一特殊群体的现状和需求,优先保障其课后服务需求。
期刊
近年来,类别可控的古诗生成式学习技术渐渐成为了前沿研究热点。诗歌智能生成技术在生成式预训练模型的基础上引入规划机制,成功实现对生成诗歌的自主可控。自主可控能力弱、存储成本高、格式限制严格是当前诗歌文本智能生成亟待解决的主要难题。针对给用户分发特定主题词的规划,会造成类别不平衡的问题;针对模型在小样本下生成与主题词相适的古典诗歌的规划,虽然语料成本降低,但训练、测试时参数存储成本过高;针对模型生成满
学位
随着信息技术的不断发展,数字化改革已逐渐成为提高企业效能的重要举措。业务流程作为数字化转型的重要载体,目前已在办公自动化、制造工艺、应急救援、金融保险等领域被广泛应用。现如今,越来越多的企业根据自身的业务规则都建立了服务企业运营生产的流程管理系统,并且这些系统每时每刻都产生着大量的日志数据。通过分析这些数据可以为企业业务优化、管理决策等提供有效支持。例如,通过分析日志数据预测正在执行的流程实例的结
学位
高校仪式是学校制度设计、氛围营造、活动体验的集合体,而非简单的规范或创新话题。作为思想政治教育的载体,它还具有承载和传递理想信念和价值追求的功能。如何通过仪式开展思想政治教育?参与者对仪式设计、氛围与活动产生了何种反应?这样的反应与仪式教育所承载和传递的理想信念和价值追求是否相匹配?围绕这三个问题,本研究从主体参与的角度切入,以马克思原理的认识论、思想政治教育的方法论、柯林斯的互动仪式链理论为指导
学位
伴随着互联网技术的持续发展,物流运输业正处于高速发展的阶段,而仓储行业作为物流运输业中的一个重要组成环节,也愈发受到重视。目前部分仓储系统的信息易篡改、流程不透明、中心化严重、缺乏信任等问题逐渐暴露在人们面前,不断消耗着人们对仓储系统的信任度,如何提高仓储系统的安全可信性和货物溯源的能力,已经成为行业内亟需解决的问题。区块链技术作为一种新技术,具备去中心化、可信任、透明公开等天然特性,让其在仓储领
学位
学位