复杂数据下的无监督表示学习方法及应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:qg101213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的发展,在生产实践中产生了大量的无标签数据,面对数据的无标签特性、数据类型的多样性以及标记数据的高昂代价等情况,如何利用无监督学习方式来对这些不同类型的无标签数据进行表示学习与知识发现,受到学者们广泛地关注。在实际应用中,分类型数据、流式数据以及图数据越来越普遍。目前针对无监督式的表示学习与知识发现,绝大多数方法存在处理数据类型单一,只能从单视角对数据进行表示,无在线学习机制以及难以处理图数据等问题。鉴于此,本文将深入研究复杂数据下的表示学习与知识发现,利用无监督学习方法,对无标签的数值型数据、分类型数据、流式数据以及图数据的表示学习问题展开研究,提出了一系列应对不同场景与任务的表示学习方法,并将这些方法应用到聚类分析、概念漂移检测以及社团发现中去,并且取得了较好的性能。本文的主要研究内容与创新点概括为如下的三个方面:(1)在无标签非线性可分数据的表示学习和聚类分析问题中,数据类型的差异性给表示学习和聚类分析带来了巨大的挑战。针对传统的集成式聚类算法所得到的结果往往是多个聚类算法的中庸结果,存在无法实现“弱弱生强”的问题,本文提出了多特征融合的软子空间聚类算法,该算法利用不同的降维算法对数据进行降维处理,从而形成多视角特征,并将多个弱聚类器进行加权融合,形成强聚类器。针对分类型数据不具有几何结构,难以有效地对分类型数据进行属性约简的问题,本文提出了依据等价划分来实现数据类型转换的模糊粗糙聚类算法,该算法充分考虑了同一等价类内样本的相似性与不同等价类内样本的相异性,将分类型数据转化成数值型数据,然后对数据进行降维,实验结果证明了算法的有效性。针对数据流中的概念漂移问题,当前已有的数据流聚类算法往往只能应对突变式或渐进式概念漂移,本文提出了自适应数据流聚类算法,该算法采用在线学习与滑动窗口机制,对每一个数据块进行特征变换,并采用阈值划分的方法来检测概念漂移,实验结果证明了该算法能够很好地应对同时含有两种概念漂移的数据流聚类问题。(2)传统的图嵌入算法往往直接利用一阶邻域关系来对节点间的相似性进行度量,然而,一阶邻域关系只能反映出节点间的局部关系,无法从全局的角度来度量节点间的相似性。针对上述问题,本文提出了一种能够融合一阶与二阶邻域关系的图嵌入算法。该算法利用一阶与二阶邻域关系定义了一种模糊隶属度来反映节点间的依赖性并由此形成一个隶属度矩阵,再根据隶属度矩阵来获得节点的嵌入向量,通过这两种邻域关系的融合,该算法能够较好地反映节点间不同粒度下的关联关系。针对传统图嵌入算法缺乏反馈机制的问题,本文在利用图的局部与全局结构信息基础上,进一步研究了反馈机制对图嵌入结果的影响,并提出了带有信息传播机制的流形图嵌入算法,该算法首先利用多跳连接来获得图的高阶信息,然后利用流形学习与低秩学习来获得节点的低维嵌入向量,最终根据图的结构信息来更新嵌入结果。实验结果表明,该算法不但能够利用图的局部与全局结构信息,而且还具有较好的鲁棒性。(3)浅层模型的图嵌入算法一般只能获得图数据的低层次语义特征,并且无法应对带有属性信息的图数据。图神经网络作为一种有效的图表示学习方法,不但能提取高层次的语义特征,而且能够实现属性信息与结构信息的融合。然而,当前绝大多数图神经网络算法难以实现不同高阶近邻信息的融合以及无法有选择性地关注对任务有利的特征。针对上述无标签属性图的表示学习问题,本文从图神经网络与自监督学习的角度出发,提出了一种能够实现高阶近邻信息融合的自监督深度图嵌入算法,并将其应用到社团发现任务中。该算法将不同的高阶信息矩阵输入到多个图神经网络中,从而得到多组高层次语义特征,然后采用加权的方法实现特征的融合,最终图神经网络采用对比学习与负采样机制进行训练,在获得节点的低维嵌入向量后,该算法采用谱传播的方法来进一步增强嵌入结果。实验结果表明,该算法不但能有效地利用图中不同的高阶近邻信息,而且较当前主流算法能获得更好的社团划分结果。
其他文献
视觉目标跟踪旨在解决对视频序列中感兴趣目标的持续跟踪问题,其在许多人工智能应用中都扮演着重要的角色,例如智能监控、智能驾驶和智能交互等。虽然近年来视觉目标跟踪在跟踪精度和跟踪速度方面不断突破,但是实现一款准确性高、鲁棒性强、实时性好的通用目标跟踪器依然面临巨大挑战。一方面,稀有的先验信息给目标外观模型的离线训练带来了诸多困难;另一方面,由目标自身因素和环境因素引起的显著的外观改变使得视觉目标跟踪问
分子反应动力学是在原子和分子水平上研究化学反应的本质和微观机理。理论上研究分子反应动力学的前提是构建一个全域的势能面,然后求解原子核在势能面上的演化方程。三原子体系是分子反应动力学研究的基准体系,其中离子与氢气及其同位素的反应在天体物理、储氢以及超冷化学等领域有重要的应用。N+(3P)+H2(X1Σg+)→NH+(X2Π)+H(2S)反应是星际云中合成氨的链式反应的第一步。先前对该反应体系的动力学
滑动弧等离子体,在气体转化、污染控制和纳米材料合成等领域具有广泛的应用前景。首先在定弧长条件下,结合实验和模拟,研究了旋风滑动弧等离子体交流周期的伏安特性。然后在变弧长情况下,研究了旋风交流滑动弧等离子体弧通道的时空演化。进而,对旋风交流滑动弧等离子体合成TiO2的过程进行了诊断研究。最后,进行了旋风交流滑动弧等离子体一步快速合成介孔纳米晶TiO2的研究。主要的研究内容和研究结果如下:1.在定弧长
随着我国沿海多个一小时经济带的高速发展、基础设施建设逐渐向西部推进,桥梁的建设如雨后春笋般不断涌现。在地震灾害中桥梁的生命线作用不可忽视。近些年来我国在地震中桥梁的震害给灾后救援、物资输送等带来极大阻碍,延缓了救援速度,间接造成了巨大的经济损失。大跨桥、高墩桥、异形桥的抗震设计问题逐渐引起重视,而多点激励效应对这些特殊桥梁来说至关重要。根据已有的研究表明桥梁的形式、跨度、刚度、走向等因素对桥梁在多
乙腈、正丙醇和叔丁醇是工业中常用的有机溶剂,乙腈和正丙醇常见于化学品、药物生产过程以及高效液相色谱法的流动相使用中,而叔丁醇和水常见于叔丁醇脱水制异丁烯和商用异丁烷制备叔丁醇的过程中,因此,乙腈-正丙醇和叔丁醇-水两个二元共沸体系是化工分离领域常见的废液。共沸体系的分离通常采用萃取精馏的方法,而萃取剂(常称为溶剂)的选择是萃取精馏的核心。离子液体(ILs)作为具有绿色、环保等特点的新型溶剂,因其挥
热防护系统的设计和优化是保证飞行器整体结构安全和内部仪器正常运转的关键科学技术,设计是否可靠很大程度上取决于对防热材料性能参数的准确估计。因此,发展高效的热参数表征和辨识方法,快速准确获取高温环境中的热参数,对热防护系统性能评价具有重要意义。高温高压环境会使大多数温度传感器损坏或失效,原位测量非常困难。鉴于此,本研究面向基于数值计算方法的参数辨识问题,利用结构低温区域有限的温度测量信息反推结构表面
当今世界,科技和工业的进步导致能源和环境危机日益严重,纳米纤维素作为绿色环保的高介电聚合物基体受到越来越多研究者的关注。与常见难以降解、不可再生的高介电聚合物基体不同,纤维素是天然的有机材料,且在自然界中贮量大、来源广。与现有聚合物基体相比,通过机械研磨法制得的纳米纤维素在柔韧性、生物相容性、传热性、无毒性、透明性、和可降解性上均表现出明显的优势,在高介电材料领域有极大的应用潜力。本文用天然纳米纤
新发传染病(Emerging Infectious Disease,EID)作为全球公共卫生研究领域中的重点和热点事件,对人们的身心健康存在严重威胁,一旦发生便会激起公众分享信息、跟进事件进展的强烈愿望,极易引发重大舆情事件。因此,基于社交媒体平台的信息分享行为与网络舆情引导策略的相关研究已经开始受到学术界的关注。然而,目前尚缺乏从网民的异质性以及网络舆情的动态演化视角分析EID情境下信息分享行为
随着互联电力系统规模的增大,网络结构和运行模式越来越复杂,这将不可避免地导致稳定性问题,例如低频振荡问题(Low Frequency Oscillations,LFO)。LFO代表电力系统中区域间的振荡,其为削弱电力系统稳定性,降低系统传输容量,限制电力网络互联能力的重要因素。最近几年信息物理仿真技术广泛应用于电力系统分析中,其为研究信息流与电力流之间的交互影响和分析各类信息系统状态下电力系统运行
随着城市化进程的推进,工程结构向着高强、耐久以及多功能的方向发展,这要求进一步提升现有土木工程材料的性能。纳米材料由于小尺寸效应、表面效应以及量子隧道效应而具有独特的物理和化学性能,为研制多功能水泥基材料提供了新的途径。纳米二氧化钛(nano TiO2,NT)是一种具有优异力学性能、电磁波屏蔽与吸收性能、抗菌性能、强氧化还原性能、耐酸碱腐蚀性能的纳米材料,将其与水泥基材料复合有望发展兼具优异结构性