论文部分内容阅读
图数据广泛存在于现实生活中,例如文献引用关系、社交网络等等.因其可以自然地刻画数据之间的相互关系,所以对于图数据的研究具有重要的现实意义和价值.传统的图数据分析方法大多基于图数据的统计信息或者手动设计的特征,在大部分情况下表现不佳且过程耗时耗力.近年来,深度学习由于其强大的特征表征能力和不依赖过多的先验知识被广泛应用到许多研究领域,一定程度上减少了对数据统计信息和手动设计特征的依赖.因而利用深度神经网络处理图数据成为了图研究的热点,并由此产生图神经网络的概念.图神经网络按照定义图卷积的方式可以划分为基于谱域和基于空域两种类型.其中,图卷积网络既可看作是基于谱域的模型又可视为基于空域的模型.图卷积网络因其坚实的理论基础和简洁的前向传播方式而被广泛地研究.图卷积网络很好地将卷积操作从传统的网格数据推广到非欧式空间的图数据上,并在相关任务上取得非常好的学习性能.但是训练一个性能良好的图卷积网络往往需要大量的标签数据以及验证集.而在现实生活中,标签数据的获取往往费时且昂贵,因此如何利用少量的标签数据,即在低标签率的情况下,训练图卷积网络成为新的研究问题.本文使用双通道模型来克服图卷积网络在低标签率下的学习问题.其中,双通道模型由两个结构相同但参数不同的图卷积网络组成.图卷积网络在标签转导传播中表现良好,对部分未标记样本的预测具有较高的置信度.本文将置信度高的预测作为伪标签,并在标签数据非常有限的情况下扩展标签数据集合.但是,由于伪标签是通过预测得到的,不能保证所有的预测都是正确的,即存在噪声,信任所有的伪标签数据会导致传播错误.最近关于噪声标签学习的研究发现,神经网络首先拟合带有干净标签的训练数据,然后再拟合含有噪声标签的训练数据.本文也采用相同的方式:首先本文的双通道模型使用干净标签的训练数据进行训练来得到很好的初始化,然后选择置信度高的伪标签数据扩展标签数据集合,且在训练的过程中逐步增加伪标签数据数量.伪标签数据选择的具体过程为:首先选择两个模型softmax函数产生的具有高置信度的预测样本;然后在这些高置信度的样本中选取两个模型预测相同的样本加入到训练集,达到扩大训练集的目的.通过与其它图学习方法的节点分类结果对比,证实了本文提出方法的有效性,即本文的方法在非常低的标签率下也能获得很好的性能.