属性网络的半监督学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 3次 | 上传用户:CID102626720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近二十年由于科学技术的飞速发展,人类获取网络数据越来越容易,获取的网络数据数量越来越多,相应的网络分析挖掘技术也取得了巨大进步。之前的网络挖掘技术通常将网络看做是纯粹的拓扑对象,只包括节点集合和节点之间的交互关系。然而,在实际应用中,这有很大的局限性。大多数的信息网络节点会有描述性质的特征或属性信息,例如,在微博社交网络中,除了包括用户之间的关注关系,还包括用户属性信息(用户发表的帖子)。这些属性和连接关系包含有丰富的内容,可以揭示用户的类别(如兴趣爱好)。因此,在网络挖掘过程中,针对网络数据的一个有效模型应当同时考虑节点属性和关系结构。我们将这种类型的网络称为属性网络。  属性网络挖掘有重要的价值,可以帮助人们发现隐藏在复杂系统中的宝贵信息。例如,对用户社交网络的研究可以预测用户的兴趣爱好,进而对用户个性化推荐;对蛋白质交互网络的研究可以预测蛋白质的功能。实际应用中,获得足够多的有标记数据通常会很昂贵甚至是不能获得的。当有标记数据很稀疏时,一个可行的解决方法是采用半监督学习策略来挖掘无标记数据。然而,针对属性网络的半监督学习方法的研究成果还很少。  因此,本文研究属性网络半监督学习问题。围绕属性网络半监督分类、多属性和高阶关系学习、半监督多类标分类和跨属性网络节点对齐四个问题展开研究,本文提出了一系列算法来解决这些问题。本文的主要研究内容和创新包括:  首先,针对属性网络半监督分类问题,提出了MARL算法。该算法能同时利用节点的多属性信息和单关系结构,同时也能挖掘无标记数据。通过一个有效的期望最大化算法来计算节点的类标概率分布。在多个数据集上的实验结果验证了MARL算法相对于对比算法的优越性,另外,当有标记数据所占比例变化时,结果展示了MARL算法的鲁棒性。进一步提出了MGGM算法,解决多属性多关系学习问题。提出了一个多关系集成正则化框架将多个关系网络结合在一起,通过期望最大化优化框架求解。最后,在实际数据集上的实验表明了MGGM算法的有效性。  其次,针对多属性和高阶关系学习问题,提出了HRGM算法。算法通过一个超图正则化生成模型融合了多视图属性信息和高阶关系信息。为了挖掘高阶关系和无标记数据,提出了超图正则化。一方面,超图正则化能挖掘节点之间的高阶关系。另一方面,超图正则化通过半监督学习能够利用无标记数据传播类标信息。在多个数据集上的实验结果显示HRGM算法优于对比的协同分类算法和多视图学习算法。结果还表明即使只用很少的有标记数据训练模型, HRGM算法仍能够取得较好的精度结果,表现稳定。  再次,针对半监督多类标分类问题,提出了GMHR算法。GMHR算法利用了所有的异构信息,包括属性特征、交互网络、类标依赖和无标记数据。构造了两个超图正则化,构造的节点网络超图挖掘节点之间的高阶交互关系,构造的另一个类标关联超图挖掘类标之间的高阶依赖关系。之后设计了一个迭代算法求解模型。最后在多类标数据集上的实验结果一致表明了GMHR算法相对于先进的对比算法的优越性。  最后,针对跨属性网络节点对齐问题,提出了UANE算法。针对多个属性网络,UANE算法首先利用网络嵌入技术,独立的将每个属性网络映射到低维空间中,该网络嵌入保存了网络的内在结构规则,使得有相似的邻域结构和属性信息的节点,其嵌入向量有相似性。然后利用学习到的嵌入向量作为输入特征,并利用已有的跨属性网络节点对应关系作为监督信息,将它们输入到sigmoid层进行跨网络的节点对应关系预测,该节点对应关系预测与网络嵌入学习过程迭代进行,使得学习得到的节点嵌入向量是预测节点对应关系和预测网络上下文的联合训练结果。最后在三个现实数据集上评估了UANE算法的有效性。
其他文献
图像分割是医学图像处理分析中的一个重要步骤。医学图像的多样性和复杂性,以及获取图像时噪声的干扰,使医学图像的准确分割往往具有较大的难度。目前,研究者们提出了许多分
随着科学技术的飞速发展,使得社会分工越来越细,建筑产品的开发以及激烈的市场竞争要求设计单位从更广阔的范围内来优化资源配置。因此建筑产品的开发需要众多企业及相关科研
近年来,随着无线移动通信和移动终端技术的高速发展,使得无线Adhoc网络不但在军事领域中得到了充分的发展,在民用领域中也得到了广泛的应用。无线Adhoc网络有着许多独有的特点:不
随着政府对信息化建设工作的正确引导以及投入的加大,我国在信息化建设各方面都取得了一定的成绩,信息化建设也向更深层次发展。同时,由于过去信息化建设一直是在分散体制下的投
非线性微分方程(或方程组)是描述物理现象的重要数学模型。它是当代非线性科学研究的一个重要领域。发现和发展非线性微分方程(或方程组)新的求解方法、揭示解之间相互作用的
基于IEEE1451标准的网络变送器的研究方兴未艾。但由于标准出现之前许多厂家已经有自己的相关产品,为了保持自己的兼容性无法完全遵守IEEE1451标准;或者由于标准规定的内容太多
近年来高速发展的路桥、土木水利、钢架悬梁、场馆建设、工业产品检测等领域对挠度检测设备提出了更高的要求,挠度检测向实时动态、宽信号范围、高精度、高速度、可预警报警
随着数据库技术的发展,数据交换次数和交换数量不断增多,视图发布过程中所存在的信息泄漏的问题日渐突出。因此,保证发布视图的安全成为数据库安全的一个新课题。本文对国内
神经网络控制是智能控制的一种典型的形式,近几年来得到了飞速的发展。尤其是对于不确知、不确定、非线性、多输入多输出等难于建立精确数学模型的复杂系统,应用神经网络控制
信息通过插入删除信道发生传输错误时,由于出错的位置是随机的,各个错误间相互独立,因此纠正该类错误十分困难。但在某些实际系统中,如比特格式媒体(bit-patterned media),会