论文部分内容阅读
近年来,随着科学技术的蓬勃发展,学者们把撰写论文作为展示自己科研成果的重要手段,随之带来科研文献数量的飞速增长。因此,如何准确地、高效地为科研人员推荐参考文献是一个具有挑战性的任务。引文推荐旨在从庞大的文献数据库中智能化地为科研人员筛选出合适的参考文献。引文推荐算法拥有很强的实用价值和广泛的应用前景,它可以提高科研人员查找文献的效率,增强初学者对当前研究领域的认知,同时一定程度上降低错、漏引出现的概率。在引文推荐的问题中,可以利用文章间的多种信息来解决问题,这些信息往往都是异构的,因此,使用异构信息网络对引文推荐问题建模,可以更好地捕捉文章与文章间的联系,包括语义联系和结构联系。目前的引文推荐算法多从文章的语义相似度为基础,加以作者合作信息、文章出版商信息等,使用图模型进行建模,利用图的拓扑结构计算文章间的相似度以生成推荐列表。不同于图模型对文章的某个特征进行建模,异构信息网络不仅囊括特征内部的关系,也涵盖特征间的关系。本文将语义信息与结构信息通过异构信息网络融合,引入元结构的思想用于计算文章间的相似度,并且为不同的元结构赋予权重,提出了新的相似度计算指标,生成推荐列表。而后,为了解决元结构不能衡量异构网络中没有连接路径的点之间的相似性问题,将表示学习应用到引文推荐问题中,使得文章的向量学习到文章与文章间的潜在联系,从而计算相似度,并根据相似度排名进行推荐。本文的主要工作如下:(1)本文首先阐述的是引文推荐问题的研究意义和国内外研究现状,重点分析基于异构信息网络来解决引文推荐问题的优势及存在的问题。然后对异构信息网络和引文推荐问题的提出及发展进行简要的描述,并给出将异构信息网络引入引文推荐问题的意义。(2)针对不能同时捕捉多个特征来计算文章间的相似度的问题,本文提出基于元结构的引文推荐算法(MS-AIOA)。首先,通过三度影响力原则筛选出三度以内的元结构。随后,计算文章间基于不同的元结构得到的不同的相似度,并且提出了新的结合多个元结构的相似度计算方法,以平衡各个元结构的权重。最后,引入智能优化算法来求解可以使推荐效果最佳的元结构权重参数。实验表明该算法使引文推荐效在召回率、准确率、F1值和NDCG上均有提升。(3)基于元结构的引文推荐算法无法度量在网络中没有可达路径的两篇文章的相似度,针对这一问题,本文提出基于引文倾向的引文推荐算法(CRW)。该算法分为两部分,一是通过基于引文倾向的随机游走获得网络中节点的游走序列,二是将游走序列送入Skip-gram学习文章节点间的关系,以获得文章节点向量表示。随机游走的过程中,算法给定五个游走权重矩阵,分别对应着异构信息网络中五种类型的边。其中,权重矩阵的值使得随机游走的方向更倾向于序列中文章的引文。最后,给出了针对两个文章向量计算相似度和生成推荐列表的方法。实验证明,该方法优于基于元结构的引文推荐算法(MS-AIOA)。