基于缺失共现数据的无监督异构迁移学习

来源 :天津大学 | 被引量 : 0次 | 上传用户:nanti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异构迁移聚类可以在无监督的情况下将知识从相关的异构源域迁移到目标域。现有的工作通常需要使用大量的完整共现数据,这种数据通常是异构的,使用转换函数是实现将异构数据映射到公共潜在特征子空间的方法。然而,在许多实际应用中,收集大量的共现数据是不现实的,而现有的共现数据往往是不完整的。另一个常见的问题是,实际中异构数据的复杂结构可能导致聚类性能的大幅度下降。为了解决这些问题,本文从两个方面提出了无监督异构迁移学习方法。其一,挖掘数据的深层结构,学习高效低冗余的子空间特征;其二,提出泛化性强且有效的基于自编码的无监督异构迁移学习框架。这两种方式的主要研究成果和创新性工作如下:1.提出了一种针对有缺失共现数据的无监督异构迁移聚类方法。该方法在三个方面优于现有的方法。首先,充分利用源域和目标域的部分共现数据来学习潜在空间,最大限度地从有限的信息中提取有用的聚类知识。其次,它融合了多层隐藏表示,准确地保留了复杂数据的层次结构。第三,在新特征表示上使用近似正交约束,有效地刻画了冗余最小的潜在子空间。文中推导并实现了一种有效的算法来实现方法。并且,在真实数据集上的一系列实验表明,该方法与现有方法相比具有明显的优越性。2.将自编码应用到基于缺失共现数据的无监督异构迁移学习方法上。本文探索了基于多种自编码实现无监督异构迁移学习框架的有效性,并比较了具有多种约束方式的基于自编码的异构迁移方法的迁移性能。一系列基于真实数据集的实验证明了该框架的有效性与合理性,并且对比说明了目前存在的无监督异构迁移学习方法与基于自编码框架的异构迁移学习方法的差距。本文提出的两种无监督异构迁移学习方法,突破了目前存在的方法仅使用完整共现数据的限制,并通过充分利用缺失共现数据,从探索数据的深层结构和提高模型的稳定性两方面实现了无监督的异构迁移学习。
其他文献
随着我国经济的快速发展,人们的生活质量显著提高,食品质量安全问题逐渐引起了人们的关注。胶体金免疫层析技术是层析与免疫分析技术相结合的一种技术,能对现场食品开展快速免疫检测,有效地确认食品的质量安全,从而保证人们日常饮食的健康和安全。本文分析了胶体金免疫层析技术及其在食品检测中的应用,以期为食品检测工作提供参考。
近些年来,大规模视频处理在监控分析、交通管理、在线视频内容检索等方面发挥着愈来愈加重要的作用。同时,借助于深度学习的发展,图像分析的精度逐步得到提高,应用深度学习模型例如目标检测模型以及目标识别模型进行视频处理已经变得十分高效。在视频处理过程中,对于同一个视频,会有来自多个不同用户的多个请求。当这些的请求在查询内容或区间等方面存在重叠时,便会为数据共享带来可能性。由此,通过对多个请求间的重叠部分进
目前,知识图谱已经成为人工智能技术的重要组成部分,拥有强大的语义处理能力和数据关联能力。作为知识图谱上最常见的导航式查询,正则路径查询在近些年被广泛研究和讨论,已经成为一个焦点问题。随着互联网的发展,知识图谱规模日益激增,采用分布式技术成为面对大规模数据的必然选择。部分求值技术已经应用于图数据查询的分布式处理方案,然而,基于部分求值的方法一方面会计算很多无效的部分中间结果;另一方面容易导致计算和通
为了更好的完成大规模知识图谱补全和构建等工作,本文主要研究如何高效地利用分布式技术对大规模知识图谱进行稳定有效的表示学习。在利用分布式技术进行知识图谱表示学习时,会面临对大数据和大模型进行稳定高效处理的同时又要减少语义损失的挑战。所以,通过设计高效的分布式并行模式、参数交互模式以及有效的模型聚合方法等方面的工作来解决问题是非常重要的。本文面向知识图谱表示学习提出了一种基于去中心化混合并行的分布式框
语音交互是人类社会最直接、最自然的沟通交流方式,语音识别作为其中关键技术之一,能够通过识别语音信号,将语音信号转化为对应的文本文字。经过多年的深入研究,自动语音识别技术(ASR)已经取得了重大突破,并且投入到实际应用中,但是目前仍有一些技术难题需要攻克,其中最核心的问题就是降噪的处理。在实际应用中,由于周围环境的不确定性,语音常常会受到环境噪音的影响,进而影响语音的质量,最终使得语音识别率显著下降
利用网络表示学习方法高效的分析和挖掘大规模异质信息网络已经引起了广泛关注。由于考虑了节点与边的类型信息,异质信息网络携带的丰富的语义和结构信息,可以很大程度的优化网络分析和下游任务,但是如何充分利用这些信息则成为一个特殊挑战。传统的异质信息网络表示学习通过元路径引导的随机游走产生节点序列,并利用神经语言模型进行表示学习。虽然上述方法可以取得很好的效果,但仍旧是采用非常传统的Skip-Gram神经语
核矩阵近似是提高核方法计算效率的基本方法。已有的核矩阵近似方法独立于学习问题,且用于在线核方法时每回合重新求解近似核矩阵导致较高的计算复杂度。本文首先提出面向泛化误差的矩阵近似方法,然后通过增量奇异值分解给出高效的增量矩阵近似方法。整合泛化误差近似与增量矩阵近似给出在线核方法泛化误差的增量近似方法。主要内容如下:1.提出面向泛化误差的矩阵近似方法。用泛化误差构造采样分布,将该分布作用于核矩阵的近似
水下无线传感器网络在水环境信息采集、海底资源探测、海洋军事监控、水下灾害预警等方面具有广阔的应用前景,其中水下传感器网络节点部署不仅直接影响网络监测质量,而且关系到网络后续的各种算法和协议设计。然而,由于水下环境的特殊性,部署节点的成本高昂,采用何种方法在满足应用环境覆盖要求的前提下有效降低节点的部署成本是需要研究的关键问题。本文首先就现有的部署算法、覆盖指标、感知模型、通信方式等对水下传感器网络
随着人工智能技术的快速发展和迅速普及,神经网络应用在诸多领域上,比如图像分类、图像语义分割、图像检索、物体检测等计算机视觉问题上,并且开始替代大部分传统算法,逐步被部署到终端设备上。但是神经网络计算量非常巨大,从而存在神经网络在硬件上处理速度慢、运行功耗大等问题。其中,CNN(卷积神经网络)庞大的数据移动和计算复杂度给硬件带来了巨大的功耗和性能挑战,这阻碍了CNN在智能手机和智能汽车等嵌入式设备上
标记分布学习是一种新型的解决标记多义性问题的机器学习范式,其在处理标记模糊性问题方面有着十分重要的应用。不同于多标记学习,标记分布学习的标记空间不再是离散的标记向量而是各个标记对于样本的描述程度,它是一种更加泛化的表示形式。近些年来,标记分布学习以其十分广泛的应用背景,得到了越来越多的研究者的重视。在目前的标记分布学习模型中,大部分采用最大熵模型对标记分布学习数据进行预测并没有对标记空间中存在的信