论文部分内容阅读
互联网的高速发展使得社会网络分析得到了广泛的研究。之前的社会网络分析大多数是针对由同种类型节点组成的同质信息网络的。然而,真实世界往往更为复杂,网络中包含的对象类型更多,对象之间的关联关系也更加丰富。所以,通过异质信息网络对这类网络建模更为准确。异质信息网络是指由许多不同类型的对象互相关联形成的信息网络。目前,很多数据挖掘任务(如:相似性计算、社团发现等)都在异质信息网络中开展。相似性计算用来评价对象之间的相似性,社团发现可以探测出网络的社团结构,它们是许多数据挖掘任务的基础。元路径是由定义在不同种类对象之间的一组关系构成的路径。不同的元路径表达了不同的语义信息,因此大多数异质信息网络中的数据挖掘任务都是基于元路径的。目前,异质信息网络中基于元路径的相似性计算方法大多都没有将链接上的权值信息考虑在内。然而,链接上含有权值信息的网络是普遍存在的,例如:推荐系统、文献网络等。如果忽略链接上的权值信息,可能造成相似性计算结果与真实结果之间的差异较大。另外,目前大多数社团发现任务都是在同质信息网络中开展的,在包含更丰富的网络结构和语义信息的异质信息网络中开展社团发现更为困难。针对以上问题,本论文首先提出了一个异质信息网络中考虑权值信息的相似性计算算法。该算法通过考虑权值信息的异质信息网络和权值元路径的概念将链接上的权值信息包含进来。之后将权值元路径进行拆解和合并,使得传统异质信息网络中的相似性计算方法可以应用其中。通过在推荐系统、相关性搜索和聚类分析中的应用,证明了考虑权值信息的相似性计算方法的优越性。其次,本文提出了一个异质信息网络中的社团发现算法HCD(Heterogeneous Community Detection)。该算法由两部分组成:基于单条元路径的社团发现算法HCD_sgl和融合多条元路径的社团发现算法HCD_all。HCD_sgl对传统标签传递算法进行改进,首先通过筛选种子节点,并在种子节点网络中进行社团发现,减少了网络中初始标签的个数,提高了算法的准确性。之后通过引入社团归属度的概念使该算法可以应用于重叠社团发现。HCD_all在HCD_sgl的基础上将基于多条元路径的社团发现结果进行整合,得到异质信息网络中融合多条元路径的社团发现结果。通过在真实数据集和人工数据集上的实验证明了 HCD算法可以有效地探测出异质信息网络中的社团结构。