论文部分内容阅读
在信息爆炸的时代,让研究人员高效地找到其感兴趣的学术论文,已经成为学术界和工业界亟需解决的一个问题。学术论文推荐系统可以在一定程度上解决这个问题。推荐系统通过对用户和学术论文进行建模,进而找到与某个特定用户兴趣相匹配的若干论文并予以推荐。学术论文推荐算法大体上可以分为基于内容的学术论文推荐算法、基于协同过滤的学术论文推荐算法和基于多数据源的混合学术论文推荐算法。其中基于内容的学术论文推荐算法是最早被广泛使用一种方法,旨在向用户推荐和其已交互的学术论文具有相似的文本内容的学术论文。使用这种算法做出的学术论文推荐一定程度上能让用户满意,然而仅仅推荐内容上相似的论文,推荐结果相对单一,缺乏多样性。近些年,CiteULike和Mendeley等学术社交网络提供了大量的“用户-论文”交互数据。利用这些交互数据,基于矩阵分解的协同过滤推荐算法成为学术论文推荐的主流方法,然而这类方法通常面临严重的交互数据稀疏和冷启动的问题。针对基于内容和基于协同过滤方法各自存在的问题,多数据源混合的推荐算法引起了大家的广泛关注,它们可以融合内容和交互两种信息,充分利用两种信息弥补相互的不足,从而可以获得更好的推荐效果。然而,如何有机地融合多数据源,充分利用不同数据源之间的相关性和互补性,仍然是值得深入研究的问题。针对这一问题,本文基于内容数据和交互数据,首次提出一种基于对齐的深度矩阵分解模型,并用于学术论文推荐。论文的主要工作包括:1.面向学术论文推荐任务,提出了一种深度对齐矩阵分解模型,该模型可以更有效地利用多数据源的异构性和相关性。首先,考虑到数据源之间的异构性,利用深度矩阵分解模型,分别从不同的数据源学习到用户和学术论文的低维向量表示。其次,为充分利用数据源之间的相关性,达到信息互补的目的,本文首次提出一种“对齐”的思想,“对齐”是指从两个不同数据源学到的两种论文表示尽可能的相近。通过“对齐”可以更好地融合不同的数据源,做到信息的相互补充。在学术论文推荐领域的两个标准数据集上的实验表明,相比较其它主流方法,本文提出的深度对齐矩阵分解模型有效地提高了学术论文推荐的性能。2.为了进一步验证本文提出的深度对齐矩阵分解模型的有效性和通用性,本文将该模型应用于学术论文的表示学习。从论文的引用关系和论文的内容两种数据源出发,学习学术论文的低维向量表示,并通过学术论文分类的任务,验证本文提出的模型可以学到更好的论文表示。此外,为了进一步研究模型中“论文-单词”矩阵的原始输入表示对于最终论文表示的影响,尝试利用0/1,tfidf,pmi及其变体等不同的方法去初始表示“论文-单词”矩阵,实验表明,0/1原始表示最终可以取得最好的论文表示结果。本文提出的深度对齐矩阵分解模型在学术论文推荐和学术论文表示上的应用的所有相关代码和数据都已放在了 http://114.212.189.51:2012/projects/damf。