基于异构网络链接预测算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:shixibaogao007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实中的许多应用,如社交网络、P2P信贷、生物信息、社交投资等许多数据库系统都是构成异构信息网络。因此,针对异构信息网络的数据挖掘任务是当前热门的且充满挑战的研究新方向。本文主要针对异构信息网络中的链接预测问题进行数据挖掘研究。不同于当前已有的许多数据挖掘方法,在同构网络的基础上处理链接预测问题。我们提出的链接预测模型是将实际应用问题模型为异构信息网络,因为异构网络覆盖更全面的实体和关系数据并且蕴含更丰富的语义信息。具体地,我们做了如下三项工作和创新:  (1)针对致病基因网络的链接预测问题,提出了使用异构相似约束的隐因子关系预测模型。隐因子模型假设对象之间在相同特征空间里,距离越近则越相似,将疾病和基因之间的关系预测转化为二分类概率模型:疾病和基因如果在隐含特征空间的距离越近,则它们存在关系的概率越高;反之,若距离越远,则存在关系的概率越低。为了充分利用异构信息网络所覆盖的丰富语义而更准确的挖掘基因和疾病之间可能存在的相关性,我们在基础模型的基础上加入了异构相似约束。最后,为了验证提出的算法的有效性,我们在真实的生物数据上进行实验,对比已有的相关算法,分析算法性能。  (2)我们设计了一个数据驱动的社交投资网络链接预测框架,该框架将投资行为模型为基于meta-path的异构网络链接预测问题,并提供了有效的度量函数来量化meta-path相似度。为了验证提出模型的有效性,我们在CrunchBase上提供的真实数据进行实验。实验结果揭示,我们的模型在一定程度上也可以是一个有用的工具,帮助企业(1)更好的掌握投资者是怎样和何时会投资,(2)更好的提供参考信息,当他们需要寻求外部投资时。  (3)针对P2P信贷网络的链接预测问题,我们提出了一个基于二部图的随机游走投资预测模型。使用来自P2P信贷平台上的真实数据实验,结果说明了我们的预测模型在一定程度上的有效性。多次实验结果也表明,使用我们的预测模型和Logistic模型集成的混合结果,可以取得更有效且稳定的表现。实验结果也在一定程度上说明,我们提出的预测模型和Logistic模型具有良好的互补特性。因此,相对于使用单一模型的预测结果,使用混合模型可以取得更佳的预测表现。
其他文献
随着数据库系统的应用普及,软件测试在保证数据库应用系统质量和可靠性方面发挥着重要作用。数据库应用系统的测试需要事先在测试数据库中生成一些测试数据,也称为测试数据库
医学图像配准是为了实现一幅医学图像与另一幅医学图像上对应点、面或像素值通过几何变换达到空间上的一致,从而将多种模态的图像信息融合成一幅新的图像,提供给医生更加丰富
随着经济和社会的发展,人们对汽车的安全性、舒适性、燃油经济性等方面提出了更高的要求,来自汽车功能和开发成本、上市周期各方面的压力,汽车电子软件的开发面临着越来越大的挑
实时数据库是实时系统与数据库技术有机结合的新型数据库,它具有时间约束性。在时间关键型的应用中传统数据库技术已不能满足需求,实时数据库技术成为研究热点。随着电网规模
GPS(Global Positioning System)车载导航技术是GPS技术随着嵌入式技术、汽车工业的迅速发展而逐步兴起的,广泛用于交通监控,车辆导航等方面。在我国,市场上各种基于GPS导航的产
学位
在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡数据分类。它是目前在机器学习和数据挖掘领域里一个研究热点。不平衡分类问题在现实生活中经常出现,而传统
近年来,观点摘要技术为世界各地的消费者带来了极大的便利。从大量的在线商品评论中,观点摘要技术自动为给定商品的大众观点生成摘要。然而,当前的观点摘要系统为每个商品所提供
面向时间序列建模及预测应用,针对RBF神经网络训练中结构设计问题和权值修正问题,本文分别提出改进的单目标RBF神经网络设计方法和改进的多目标RBF神经网络设计方法。论文所
随着现代科学技术的的高速发展,可穿戴计算机已经成为了现代计算机的一个重要的发展方向。可穿戴计算机具有微型化、可穿戴性、可移动性等特点,在工业、军事、医疗监护等领域
随着社会数字化程度的的提高以及网络技术的迅猛发展,各种多媒体产品,如音频、图像、视频等层出不穷,极大的满足了人们的娱乐、沟通的需求。但是,由于网络的开放性、数字产品