基于半监督半配对数据的机器学习算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:mgkmnr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从有限的观测数据中学习规律并将此规律应用于后续数据的处理是机器学习中的经典难题。在传统的监督学习算法中,学习器需要对大量的有标记数据进行学习,从而建立模型来对无法观测的数据或未见数据进行预测。然而标记样本的获取往往需要耗费大量的时间和人力。现实场景中,经常存在数据库中仅有少量样本有类别标签,大量样本数据没有类别标签。称这种仅有部分样本数据有标签信息的数据集为半监督数据。在处理半监督数据的时候,传统的监督学习算法往往会因为标记样本数量过少而产生过拟合现象,从而导致算法性能急速下降。而传统的无监督学习算法虽然不需要标签信息,但因无法提取判别性信息,性能往往差于监督学习。近些年来,半监督学习算法因其可以充分利用数据集中的所有数据,包括有标签的和没有标签的,而受到越来越多的关注。与此同时,随着多媒体和数据存储技术的发展,同一个对象被多个不同的特征(模态)同时描述的场景越来越常见。而典型相关分析(Canonical Correlation Analysis,CCA)是一种被广泛采用的处理和分析多模态数据的降维算法。但受限于CCA的定义,不同特征表示之间的样本数据必须满足一一对应的苛刻条件,在现实场景中,多模态数据集中往往存在仅有少量样本不同特征描述之间是满足一一对应的。将多模态数据集中少量样本对之间一一对应,大部分样本对之间的对应关系未知的数据集称之为半配对数据。目前,针对半配对数据进行处理的学习算法也日益得到关注。  本文主要从单一模态半监督,无监督半配对,半监督半配对三种不同的数据类型着手,设计相关学习算法,并将其应用到相关实际任务中。具体的研究工作主要包括:  1.目前基于流形假设的半监督学习算法均假设所有的样本数据分布在同一个流形结构上,该假设没有考虑到不同类别数据之间结构的差异。针对此不足,本文提出了一种基于多流形假设的半监督降维框架。对于有类别标签的样本,根据标签信息将不同类的样本分配在不同的流形结构上。对于没有类别标签的样本,首先利用基于流形假设的稀疏算法对无标记样本进行聚类,得到c(类别总数)个簇;其次利用基于重建错误的方法计算已知类别标签簇和所有无标签簇之间的距离,并将距离最小两个簇融合为一个新的簇,即一个新的流形结构;最后在每一个新组成的流形结构上,构建类内和类间图,并以最大化类间距离的同时最小化类内距离为目标构建优化问题,通过迭代算法求解得到每一类的投影矩阵。该算法不仅考虑了不同类别之间数据结构分布的差异性,而且每一类都对应一个独立的投影矩阵,原始空间内不同类别的样本数据可以投影到不同维度的低维空间内,更具有灵活性。除此以外,很多现行的基于监督、半监督和无监督的特征降维算法都可以看作是该算法的特例。  2.针对无监督半配对数据,提出一种新的算法I2SCCA来预测配对信息并尽可能在无标签条件下提取判别性信息。首先在基于图的聚类算法中引入一个约束条件,限制拉普拉斯矩阵的秩为n-c,其中n是数据集中所有样本总数,c是总的类别数。引入此约束条件后求得的相似性矩阵是一个块对角阵,块的个数等于c,即每一块对应一个簇。由于不属于同一个簇的两个样本点之间相似性系数等于0,因而避开了传统图聚类算法中的图切割步骤。在此基础上,通过同一模态内数据间的结构关系来预测不同模态间配对信息未知的样本对之间的配对概率。具体而言,如果两个配对信息未知的样本对在各自的邻域范围内有越多的共现对(配对信息已知的样本对),两者之间的配对概率越高。最后,以同时最大化模态间相关性和模态内相似性为目标函数,通过广义特征值分解求解得到每一种特征的投影矩阵。并且将提出的算法分别扩展到多特征和非线性的情景下。  3.针对半监督半配对数据,目前鲜有文献针对此类数据进行处理,但在现实场景中,这一数据类型越来越常见。本文提出的SSDCCA算法是目前了解到的唯一一种能够针对半监督半配对数据进行判别性典型相关分析的算法。本文首先提出两种不同的概率标签预估算法,并通过简单变换衍生出两种确定性标签,在四种预测标签基础上,构建类间概率散度矩阵。并将类间概率散度矩阵引入到DCCA(Discriminative Canonical Correlation Analysis)的目标函数中,从而衍生出SSDCCA-S-P,SSDCCA-S-D,SSDCCA-G-P和SSDCCA-G-D四种不同算法。该算法充分利用了数据集中所有样本数据的信息,包括有标签的和没有标签的,有配对信息的和没有配对信息的。并通过有标记样本对无标记样本进行标签预测,提取了更多的判别性信息,通过利用所有的配对的和未配对的样本信息,规避了由于配对样本对过少而可能导致的过拟合问题。最后在多个数据库上验证了该算法的有效性。  4.本文给出了一个新的定义:负信息。针对半监督半配对数据,负信息包含负标签信息和负配对信息两种。负标签信息指某一样本确定不属于某一类,负配对信息指两个样本数据之间确定不是一一配对的。本文提出的NDCCA算法首先利用少量正标签信息,一定量的负标签信息以及大量的无标签信息进行标签预测。在此基础上,通过少量的配对信息,一定量的负配对信息以及大量的无配对信息进行配对信息预测。将预估得到的标签信息和配对信息引入到DCCA的目标函数中构建NDCCA的目标函数式。根据预测标签算法的不同,衍生出NDCCA-KNN-P,NDCCA-KNN-D,NDCCA-G-P和NDCCA-G-D四种不同算法。并在此基础上讨论了负样本的分布对算法性能的影响,最后在多个数据库上的仿真实验验证了负信息的有效性。
其他文献
社会网络的研究日渐被各个领域研究者所关注和重视,生活的网络化使该研究成为了一个热点。其中包含社会网络中核心节点的识别、局部网络社团的发现以及全局网络划分等都成为了
由于声波是水下通信的主要传输媒介,随着人类在海洋中的活动越来越频繁,水下传递信息的需求越来越多,水声通信技术的应用也越来越广泛。这些需求也使得水声通信的速率和可靠性的
房间混响是在封闭空间内进行语音通信时,语音信号从声源到达传声器的多径反射所造成的,其中到达传声器较晚的反射波称作晚期混响,晚期混响会对语音造成自掩蔽和重叠掩蔽效应,因而
为了帮助各大高校图书馆的教师能够更深入地了解ISI Web of KnowledgeSM平台的使用,有效地利用它进行科研绩效评价,并进一步深化图书馆服务,2009年9月中旬汤森路透科技与医疗
学位
本文针对MIMO声纳鲁棒性波束成形问题开展了研究,提出了适应于动态、时变海洋环境的鲁棒性方法。不同于传统的确定性鲁棒性方法,本论文考虑更为实际的随机误差模型,从而设计了基
电能质量数据是分析和改进电能质量的基础,是供电系统快速定位事故、提供分析和解决方案最有效的依据。随着电力系统的管理智能化和远程监控技术逐渐提高,对于减少电能质量数据
学位
随着我国汽车数量的迅猛增加,城市交通状况不断恶化,为了加强对机动车辆的管理,改善城市交通状况,建立信息化的智能交通系统就显得尤为重要。车牌号码作为每一辆机动车独一无二的
随着降噪技术不断提高,目标辐射噪声声源级在不断降低。研究发现目标辐射噪声含有丰富低频线谱成分,由于不能直接从阵元拾取数据得到线谱位置。一般方位估计方法和时延估计方法