面向学术论文推荐的深度对齐矩阵分解模型及应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:qazaq1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的时代,让研究人员高效地找到其感兴趣的学术论文,已经成为学术界和工业界亟需解决的一个问题。学术论文推荐系统可以在一定程度上解决这个问题。推荐系统通过对用户和学术论文进行建模,进而找到与某个特定用户兴趣相匹配的若干论文并予以推荐。学术论文推荐算法大体上可以分为基于内容的学术论文推荐算法、基于协同过滤的学术论文推荐算法和基于多数据源的混合学术论文推荐算法。其中基于内容的学术论文推荐算法是最早被广泛使用一种方法,旨在向用户推荐和其已交互的学术论文具有相似的文本内容的学术论文。使用这种算法做出的学术论文推荐一定程度上能让用户满意,然而仅仅推荐内容上相似的论文,推荐结果相对单一,缺乏多样性。近些年,CiteULike和Mendeley等学术社交网络提供了大量的“用户-论文”交互数据。利用这些交互数据,基于矩阵分解的协同过滤推荐算法成为学术论文推荐的主流方法,然而这类方法通常面临严重的交互数据稀疏和冷启动的问题。针对基于内容和基于协同过滤方法各自存在的问题,多数据源混合的推荐算法引起了大家的广泛关注,它们可以融合内容和交互两种信息,充分利用两种信息弥补相互的不足,从而可以获得更好的推荐效果。然而,如何有机地融合多数据源,充分利用不同数据源之间的相关性和互补性,仍然是值得深入研究的问题。针对这一问题,本文基于内容数据和交互数据,首次提出一种基于对齐的深度矩阵分解模型,并用于学术论文推荐。论文的主要工作包括:1.面向学术论文推荐任务,提出了一种深度对齐矩阵分解模型,该模型可以更有效地利用多数据源的异构性和相关性。首先,考虑到数据源之间的异构性,利用深度矩阵分解模型,分别从不同的数据源学习到用户和学术论文的低维向量表示。其次,为充分利用数据源之间的相关性,达到信息互补的目的,本文首次提出一种“对齐”的思想,“对齐”是指从两个不同数据源学到的两种论文表示尽可能的相近。通过“对齐”可以更好地融合不同的数据源,做到信息的相互补充。在学术论文推荐领域的两个标准数据集上的实验表明,相比较其它主流方法,本文提出的深度对齐矩阵分解模型有效地提高了学术论文推荐的性能。2.为了进一步验证本文提出的深度对齐矩阵分解模型的有效性和通用性,本文将该模型应用于学术论文的表示学习。从论文的引用关系和论文的内容两种数据源出发,学习学术论文的低维向量表示,并通过学术论文分类的任务,验证本文提出的模型可以学到更好的论文表示。此外,为了进一步研究模型中“论文-单词”矩阵的原始输入表示对于最终论文表示的影响,尝试利用0/1,tfidf,pmi及其变体等不同的方法去初始表示“论文-单词”矩阵,实验表明,0/1原始表示最终可以取得最好的论文表示结果。本文提出的深度对齐矩阵分解模型在学术论文推荐和学术论文表示上的应用的所有相关代码和数据都已放在了 http://114.212.189.51:2012/projects/damf。
其他文献
美国作家和心理学家威廉·沃克·阿特金森所著的《心理推销术》,从心理学角度解读推销活动,涉及心理学和推销学两个学科的内容,以推销活动为主线,配合相关的心理学术语,系统
随着国家工业与经济实力的不断提高,使得用电需求迅猛增长,进而也促进了电力系统的快速发展。电力系统的覆盖面积不断扩大,电网结构愈来愈复杂,对电力人员的巡检工作也带来了
幼儿期体质水平是青少年体质的基础,培养幼儿参加体育活动的兴趣和习惯,将对后期身心健康发展、对环境的适应能力乃至终身的体育参与产生至关重要的影响。在国家相关政策文件
本文主要研究如何提取介子在有限温度下的谱函数。从理论角度讲,介子在有限温度下的谱函数包含了强子的热力学性质。由于Debye屏蔽效应,轻介子会被离解。重强子会得益于它的
随着打印机的普及,打印文档已经成为信息的重要载体。打印文档一般包含了打印机不同的机械特性,充分挖掘和利用这些特性可以为追溯源打印机提供线索。相较在文档中嵌入水印等
新一代半导体材料-二硫化钼(MoS_2)的出现,给微纳结构探测器的发展带来了新的机遇与发展机会。但是,在可见光范围,由于其超薄的原子层厚度对光的吸收往往低于10%,对探测器的光响应度造成影响,所以提升材料的光吸收能力也是MoS_2基探测器所面临的一个重要问题。本文围绕MoS_2探测器增强这个主题,介绍了基于新型半导体材料MoS_2的光电探测器,包括它研究进展以及面临的一些挑战。同时也简单介绍了光学
随着多媒体技术与应用的快速发展,数字音乐在过去的几十年中,无论是在线上还是线下,都获得了快速发展,已成为人们日常广泛使用的主要多媒体资源之一。与此同时,为了对大量的
近年来随着创作领域题材的局限和技术变更,限定空间电影创作存在明显的叙事困境。限定空间作为一种具象化的场景类型,要求情节叙述和人物塑造在一个较大频率出现的固定场所中
随着信息网络时代的到来,网络虚拟财物在商业领域以及人们的日常生活中都发挥着重要作用,网络虚拟财物蕴含着巨大的经济利益。正因如此,非法获取网络虚拟财物的行为日益增多,
生态环境损害赔偿协议司法确认制度就是指当事人双方在磋商基础上达成生态环境损害赔偿协议,通过一定的程序确认该协议有效,以此保障协议履行的制度。这项制度属于我国改革的