【摘 要】
:
近年来,随着信息网络的迅猛发展,时刻都会产生纷繁冗余的数据,用户面对海量数据,可能无法准确对有效信息进行选择。因此,推荐系统作为帮助用户获取精准高效信息的必要工具应运而生。传统推荐方法容易遭受数据稀疏性和冷启动等问题,并且难以应对用户偏好以及用户与项目之间的关系随着时间的推移而产生变化的问题。矩阵分解和张量分解在推荐系统中得到广泛的应用,但二者还存在不少局限性,第一,线性模型参数的较小随机扰动可能
论文部分内容阅读
近年来,随着信息网络的迅猛发展,时刻都会产生纷繁冗余的数据,用户面对海量数据,可能无法准确对有效信息进行选择。因此,推荐系统作为帮助用户获取精准高效信息的必要工具应运而生。传统推荐方法容易遭受数据稀疏性和冷启动等问题,并且难以应对用户偏好以及用户与项目之间的关系随着时间的推移而产生变化的问题。矩阵分解和张量分解在推荐系统中得到广泛的应用,但二者还存在不少局限性,第一,线性模型参数的较小随机扰动可能会导致较大的后向误差,缺乏对潜在因子之间的非线性进行表征建模的能力。第二,没有考虑到模型训练过程中容易受到模型参数的干扰,在泛化过程中可能存在较大误差。第三,缺乏捕获文档的关键上下文信息,与无用特征的交互可能会引入噪声并降低性能。针对上述问题,本文将深度学习与传统框架组合构建新的深层网络进行表示学习,有效缓解数据稀疏性。引入对抗扰动使模型拟合过程稳定,改善了鲁棒性及泛化能力。论文主要工作如下:1.针对基于深度学习的协同过滤算法未考虑到关联数据的多维交互随时间动态变化的问题,提出了一种融合时间交互学习和注意力长短时记忆网络的张量分解推荐模型(LSTM-Attention Neural Tensor Factorization,LA-NTF)。首先通过结合注意力机制的长短时记忆网络从项目文本信息中提取项目的潜在向量,进而使用融合注意力机制的长短时记忆网络来表征用户-项目关系数据在时间上的多维交互,最后将用户-项目-时间三维张量嵌入多层感知器中,学习不同潜在因子之间的非线性结构特征。在Movie Lens-1M和Netflix数据集上的大量实验表明,相比较于传统方法和最近流行的基于神经网络的矩阵分解模型,RMSE和MAE指标均有明显提升,说明LA-NTF模型可显著改善各种动态关系数据的评级预测任务。2.针对传统推荐算法采用浅层模型无法学习用户与项目之间的深层次特征,以及推荐模型极易受到其参数的对抗干扰的问题,本文在矩阵分解的基础上将对抗学习、注意力门控循环单元和注意力卷积神经网络相结合,提出了推荐模型(GRU-Attention-CNNAttention-Adversarial Matrix Factorization,GA-CA-AMF)。先采用结合注意力机制的门控循环单元从用户文本信息中提取用户的潜在因子;再使用融合注意力机制的卷积神经网络从项目文本信息中提取项目的潜在因子;最后,在用户和项目的潜在因子上引入对抗性扰动以量化矩阵模型在参数扰动下的损失,从而预测用户对项目的评级。在Movie Lens-1M和Movie Lens-10M数据集上进行实验,实验结果表明,本文模型增强了模型的鲁棒性从而提高了其泛化性能,同时缓解了数据稀疏性。
其他文献
计算机视觉作为人工智能研究中的一个重要的分支领域,其重要性不言自明,基于人类对自身相关研究的重视,视觉任务中关于人的图像的研究无疑是举足轻重的。人脸识别作为视觉任务研究中最早的子课题之一,其研究成果已经达到了很高的水平,但是它在现实的应用中往往存在很大的局限,仅仅靠人脸来识别一个完整的人并不现实,其中存在着许多难点(如拍摄的人脸图像模糊,人脸存在大范围遮挡等)。在这样的情况下,行人重识别作为一项重
目标跟踪的主要任务在于从存在噪声的观测数据中过滤出真实目标的状态并输出,在基于分布式传感器网络的多目标跟踪任务中,存在诸如目标新生、目标数目变化、目标运动呈现出非线性/非高斯特征、不同传感器观测误差差异大,且未知以及传感器具有受限观测视野等问题,使得完成稳定的多目标跟踪任务十分具有挑战。基于随机有限集的多伯努利族滤波器,如势均衡多伯努利滤波器(CBMe MBer),广义标签多伯努利滤波器(GLMB
随着互联网时代的来临,每一刻都会产生海量数据,其中文本数据以传输效率高、便捷性高、普及范围广的优势存在于各个领域中,而如何对文本数据进行快速、准确的分类是当下的热门问题。本文以新闻文本为研究对象,对相关分类算法进行研究并改进,最终验证所提出的算法能够提高文本分类准确度。1.针对传统朴素贝叶斯文本分类算法中文本特征缺乏特征权重的问题,引入更侧重特征类别间分布的互信息,并将TF-IDF与互信息相结合,
针对细粒度图像由于类间差距过小、类内差距过大、背景复杂以及姿态差异等问题目造成的分类瓶颈,本文设计了一系列基于卷积神经网络的端对端的弱监督学习分类模型,实现对细粒度图像分类精度的提高。本文主要研究焦点在于如何准确提取识别细粒度图像易混淆、难分类的特征,有效降低分类误差。具体的研究内容如下:1.基于自注意尺度变换网络的细粒度图像分类方法。为了提高网络提取特征的表现力,本章提出自注意力融合模块和多尺寸
2020年的全球公共卫生事件给全球经济带来了前所未有的冲击和挑战,但是游戏行业却迎来了超出预期的发展。疫情不断地解体和重构着人们旧有的观念和生活方式,由于游戏较低的成本和门槛,吸引了越来越多的人尝试并参与到游戏活动中,游戏不但在一定程度上释放了社会的压力,而且弥补了大众在社交方面的渴求。在所有的手游玩家中,轻手游类型玩家中一直占据着最为广阔的市场,拥有着可观的人群基数。由于轻手游较低的开发成本,各
贝叶斯网络(Bayesian network,BN)是目前不确定知识表达和推理领域最有效的理论模型之一,同时在如图像处理、疾病预测等领域得到越来越多的应用。BN结构与预测效果直接相关,学习BN结构也已被证明是NP难问题,因此快速准确的学习BN结构极为重要。启发式搜索算法已被广泛应用在BN结构学习问题中。基于遗传算法(Genetic algorithm,GA)的BN结构学习算法存在搜索时间过长、易陷
数字图像作为人们获取和传递信息的重要载体,在给人们生活带来便利的同时,也给社会带来了一些安全隐患。随着图像编辑软件的发展和普及,图像内容修改与图像伪造的成本变得越来越低,用户可以轻易利用图像编辑工具修改图像内容并且不留下明显的视觉痕迹。篡改图像在互联网中的肆意传播将对军事、政治、传媒等领域带来负面影响,因此,数字图像取证研究具有十分重要的现实意义。本文针对图像操作篡改检测以及图像篡改区域定位开展研
随着大数据时代的到来,人们需要处理的数据量急速增长,如何快速有效地从浩瀚的网络中提取到关键信息,成为业界迫切需要解决的难题。关系提取由于其能够从大规模非结构化文本中提取结构化信息,而被广大研究者所关注。近年来,学者们将基于神经网络特征抽取的方法引入到关系提取任务中,取得了令人瞩目的成绩,这使得面向关系提取的神经网络研究成为热点。根据不同的数据集标注方式,关系提取方法主要分为全监督和远程监督两类。在
当代社会对教育的重视一方面丰富了教学内容,另一方面也加重了教师的工作负担。在保证阅卷质量的前提下将教师从繁重的批阅、统计工作中解放出来被视为现有条件下减轻教师负担的有效手段。目前大规模的英语考试阅卷大多采用光学标记识别技术的机器阅卷,它采用机读卡的形式,再以光电式阅卷机配合。一方面,这种阅卷方式虽在处理选择题上效率较高,精度较高,但填空题仍需人力配合。另一方面,由于考试练习频率高,大量机读卡的消耗
随着深度传感器和三维扫描仪的普及,三维点云得到了迅速发展。基于深度学习的三维场景理解已经成为一个研究热点。三维场景的点云数据处理包括目标分类、目标检测、实例分割、语义分割。在这些任务中,目标分类和场景语义分割都是目前研究的热点。然而,在处理点云数据时存在一些挑战。由于点的非结构化和无序性,使得研究者很难直接捕捉到点与点之间的复杂关系,一些网络只考虑到了原始坐标和单个点的特征信息,没有充分关注点云局