论文部分内容阅读
最近二十年由于科学技术的飞速发展,人类获取网络数据越来越容易,获取的网络数据数量越来越多,相应的网络分析挖掘技术也取得了巨大进步。之前的网络挖掘技术通常将网络看做是纯粹的拓扑对象,只包括节点集合和节点之间的交互关系。然而,在实际应用中,这有很大的局限性。大多数的信息网络节点会有描述性质的特征或属性信息,例如,在微博社交网络中,除了包括用户之间的关注关系,还包括用户属性信息(用户发表的帖子)。这些属性和连接关系包含有丰富的内容,可以揭示用户的类别(如兴趣爱好)。因此,在网络挖掘过程中,针对网络数据的一个有效模型应当同时考虑节点属性和关系结构。我们将这种类型的网络称为属性网络。 属性网络挖掘有重要的价值,可以帮助人们发现隐藏在复杂系统中的宝贵信息。例如,对用户社交网络的研究可以预测用户的兴趣爱好,进而对用户个性化推荐;对蛋白质交互网络的研究可以预测蛋白质的功能。实际应用中,获得足够多的有标记数据通常会很昂贵甚至是不能获得的。当有标记数据很稀疏时,一个可行的解决方法是采用半监督学习策略来挖掘无标记数据。然而,针对属性网络的半监督学习方法的研究成果还很少。 因此,本文研究属性网络半监督学习问题。围绕属性网络半监督分类、多属性和高阶关系学习、半监督多类标分类和跨属性网络节点对齐四个问题展开研究,本文提出了一系列算法来解决这些问题。本文的主要研究内容和创新包括: 首先,针对属性网络半监督分类问题,提出了MARL算法。该算法能同时利用节点的多属性信息和单关系结构,同时也能挖掘无标记数据。通过一个有效的期望最大化算法来计算节点的类标概率分布。在多个数据集上的实验结果验证了MARL算法相对于对比算法的优越性,另外,当有标记数据所占比例变化时,结果展示了MARL算法的鲁棒性。进一步提出了MGGM算法,解决多属性多关系学习问题。提出了一个多关系集成正则化框架将多个关系网络结合在一起,通过期望最大化优化框架求解。最后,在实际数据集上的实验表明了MGGM算法的有效性。 其次,针对多属性和高阶关系学习问题,提出了HRGM算法。算法通过一个超图正则化生成模型融合了多视图属性信息和高阶关系信息。为了挖掘高阶关系和无标记数据,提出了超图正则化。一方面,超图正则化能挖掘节点之间的高阶关系。另一方面,超图正则化通过半监督学习能够利用无标记数据传播类标信息。在多个数据集上的实验结果显示HRGM算法优于对比的协同分类算法和多视图学习算法。结果还表明即使只用很少的有标记数据训练模型, HRGM算法仍能够取得较好的精度结果,表现稳定。 再次,针对半监督多类标分类问题,提出了GMHR算法。GMHR算法利用了所有的异构信息,包括属性特征、交互网络、类标依赖和无标记数据。构造了两个超图正则化,构造的节点网络超图挖掘节点之间的高阶交互关系,构造的另一个类标关联超图挖掘类标之间的高阶依赖关系。之后设计了一个迭代算法求解模型。最后在多类标数据集上的实验结果一致表明了GMHR算法相对于先进的对比算法的优越性。 最后,针对跨属性网络节点对齐问题,提出了UANE算法。针对多个属性网络,UANE算法首先利用网络嵌入技术,独立的将每个属性网络映射到低维空间中,该网络嵌入保存了网络的内在结构规则,使得有相似的邻域结构和属性信息的节点,其嵌入向量有相似性。然后利用学习到的嵌入向量作为输入特征,并利用已有的跨属性网络节点对应关系作为监督信息,将它们输入到sigmoid层进行跨网络的节点对应关系预测,该节点对应关系预测与网络嵌入学习过程迭代进行,使得学习得到的节点嵌入向量是预测节点对应关系和预测网络上下文的联合训练结果。最后在三个现实数据集上评估了UANE算法的有效性。