论文部分内容阅读
现实中的许多应用,如社交网络、P2P信贷、生物信息、社交投资等许多数据库系统都是构成异构信息网络。因此,针对异构信息网络的数据挖掘任务是当前热门的且充满挑战的研究新方向。本文主要针对异构信息网络中的链接预测问题进行数据挖掘研究。不同于当前已有的许多数据挖掘方法,在同构网络的基础上处理链接预测问题。我们提出的链接预测模型是将实际应用问题模型为异构信息网络,因为异构网络覆盖更全面的实体和关系数据并且蕴含更丰富的语义信息。具体地,我们做了如下三项工作和创新: (1)针对致病基因网络的链接预测问题,提出了使用异构相似约束的隐因子关系预测模型。隐因子模型假设对象之间在相同特征空间里,距离越近则越相似,将疾病和基因之间的关系预测转化为二分类概率模型:疾病和基因如果在隐含特征空间的距离越近,则它们存在关系的概率越高;反之,若距离越远,则存在关系的概率越低。为了充分利用异构信息网络所覆盖的丰富语义而更准确的挖掘基因和疾病之间可能存在的相关性,我们在基础模型的基础上加入了异构相似约束。最后,为了验证提出的算法的有效性,我们在真实的生物数据上进行实验,对比已有的相关算法,分析算法性能。 (2)我们设计了一个数据驱动的社交投资网络链接预测框架,该框架将投资行为模型为基于meta-path的异构网络链接预测问题,并提供了有效的度量函数来量化meta-path相似度。为了验证提出模型的有效性,我们在CrunchBase上提供的真实数据进行实验。实验结果揭示,我们的模型在一定程度上也可以是一个有用的工具,帮助企业(1)更好的掌握投资者是怎样和何时会投资,(2)更好的提供参考信息,当他们需要寻求外部投资时。 (3)针对P2P信贷网络的链接预测问题,我们提出了一个基于二部图的随机游走投资预测模型。使用来自P2P信贷平台上的真实数据实验,结果说明了我们的预测模型在一定程度上的有效性。多次实验结果也表明,使用我们的预测模型和Logistic模型集成的混合结果,可以取得更有效且稳定的表现。实验结果也在一定程度上说明,我们提出的预测模型和Logistic模型具有良好的互补特性。因此,相对于使用单一模型的预测结果,使用混合模型可以取得更佳的预测表现。