论文部分内容阅读
随着机器学习特别是深度学习理论和算法的不断发展,为了充分利用无标签数据,无监督学习算法取得了长足的进步。基于自编码器结构的无监督学习算法通过重构输入分布,能够提取数据的通用特征表示并有效地对数据进行压缩,并取得了相当的研究成果,但是其中仍然存在一些值得研究的关键问题。首先,基于自编码器结构的无监督学习算法在预训练阶段易受训练数据中异常值的影响,导致提取的特征缺乏鲁棒性;其次,在使用自编码器进行稀疏特征提取时,由于需要调整的超参数较多,使得算法训练复杂度较高;最后,在进行图像补全等图像生成任务时,传统的算法由于高维空间的解析力不足,导致生成的图像会出现结构不清晰以及纹理细节不足的问题。基于自编码器结构的无监督学习属于机器学习领域中的前沿研究课题,是通向强人工智能的关键。但是传统基于自编码器结构的无监督学习算法在鲁棒特征提取、稀疏特征提取以及图像生成方面并未达到预期的效果。因此,针对这些问题,本文分别基于相关熵的损失函数抑制数据异常值、神经元竞争激活机制以及线性逆问题的正则化原理提出了改进算法,对基于自编码器结构的无监督学习算法的研究和应用具有指导意义。本文的主要研究工作及贡献如下:1.通过对无监督学习算法核心技术的剖析,提出了基于自编码器结构的无监督学习算法理论框架。首先,阐述了神经网络的基本理论;其次,对自编码器算法的基本框架以及典型结构进行了分析研究;然后,分析了生成对抗网络的基本理论;最后,提出了基于自编码器结构的无监督学习算法理论框架。2.针对自编码器预训练阶段易受训练数据异常值影响的问题,根据相关熵的原理,提出了一种基于相关熵的收缩自编码器鲁棒特征提取算法(Correntropy-basedContractive Autoencoder,C-CAE),依据相关熵损失函数对训练数据中异常值的抑制能力,以及收缩自编码器对于扰动的正则作用,共同抑制数据中异常值对于自编码器预训练阶段特征质量的影响,可以应用在图像分类和重建等下游任务中。首先,推导了相关熵损失函数抑制训练数据异常值的原理;然后,分析了收缩自编码器的网络结构以及优化方法;最后,构建C-CAE基本结构以及堆叠C-CAE模型,并给出了对应的训练算法。实验验证了基于相关熵的收缩自编码器鲁棒特征提取算法能够有效地抑制训练数据异常值对特征提取的影响。3.针对传统稀疏特征提取算法超参数较多,训练复杂度高的问题,根据神经元竞争激活机制,提出了一种基于稀疏目标矩阵生成的稀疏特征提取算法(Sparse TargetMatrix Generation Based Sparse Feature Learning Algorithm)。该算法通过神经元之间的竞争激活机制构建稀疏目标矩阵,降低了无监督稀疏特征学习算法的训练复杂度。首先,分析了稀疏特征提取的相关算法;然后,探讨了神经元之间的竞争激活机制;最后,在稀疏特征提取与神经元竞争激活的基础上构造稀疏目标矩阵,并通过最小化竞争层输出与稀疏目标矩阵之间的距离提取稀疏特征,为解决图像分类等下游任务提供基础。实验验证了基于稀疏目标矩阵生成的稀疏特征提取算法的有效性和普适性。4.针对自编码器在图像补全任务中出现的生成图像结构不清晰以及纹理细节不足的问题,提出了一种基于边缘和颜色先验的图像补全算法(Parallel ImageCompletion with Edge and Color Map,PIC-EC),该算法使用生成对抗网络从数据中学习图像缺失的边缘和颜色信息,并将其作为图像补全网络的先验知识,提升了图像补全算法的性能。首先,分析了图像补全问题的相关背景;然后,对图像补全问题进行数学建模,分析了模型的求解方法以及图像边缘和颜色先验信息在图像补全问题中所起到的作用,研究了图像补全问题的处理过程;最后,根据对图像补全问题的分析提出PIC-EC算法框架,它包括三个部分:边缘生成网络、颜色生成网络和图像纹理细节补全网络,每个部分都是基于卷积自编码器结构的深度网络。实验表明,PIC-EC算法在补全图像结构完整性、颜色准确性和纹理细节方面获得了比较好的性能,表明了基于自编码器结构的无监督学习在处理具有挑战性的任务时具有优秀的性能。