论文部分内容阅读
线性判别分析分类问题是一个在学习样本不充分下的一个有监督学习问题。单单是从在实现的角度上讲,我们在理论上可以这么认为,这一个问题是利用一个非线性映射函数,这个映射函数是可以把我们在维度很高的空间中的数据样本通过这个函数映射到一个维度很低的特征空间中。通俗的说,我们是可以这么看待线性判别分析分类这个问题的,它就是从维度很低的特征空间中提取数据样本的特征,并且对特征进行分类,并将其与不同类别的数据样本分离开来。线性判别分析学习在特征提取,分类和聚类有很广泛的应用。在本文中,我们提出了一种名为线性判别分析的迁移学习方法的新方法,这种方法可以将从源域任务中学习到的知识和信息从源任务迁移到目标任务,并为目标任务建立FDA模型,帮助目标域任务的数据样本分类。通过一个非线性映射函数的方法的优点是它们可以在非线性数据情况下解决FDA数据维度不同、数据样本分布不同以及结构不同的问题。我们考虑的函数映射确定投影方向,并使用此投影方向将数据集映射到数据在特征空间中最分离的超平面。我们提出方法分两步进行。在第一步中,我们将源域和目标域的数据样本作为一个整体,然后将源域数据和目标任务分别通过映射函数放入特征空间。然后,我们为目标任务构建基于迁移学习的FDA模型。在第二步中,我们优化提出的迁移学习模型以获得最优投影平面,让目标域的数据样本分离开来。本文的主要贡献可归纳如下:1.我们利用一个非线性函数,这个映射函数是可以把我们的源域数据样本投影到一个维度相对较低的空间中。利用FDA的自有判别标准下获得一个最佳投影方向。此外,我们构建了基于迁移学习的线性判别的基础模型。2.在映射空间中,我们计算了数据样本的类内和类间的平均值和离散度,以获得源域的最佳投影方向。通过计算,我们找到了源域和目标域的最佳投影方向。最后,我们通过引入拉格朗日乘数的方法来计算目标域的最佳投影方向。3.我们进行了广泛的实验来研究我们提出的TL-FDA方法的性能。我们在20Newsgroups,Reuters-21578和Cora这三个数据集上进行了实验,并且利用了机器学习上很普遍的三种有效的分类方法对上面的结果进行比对。第一种是决策树分类方法,第二种是支持向量机的分类方法,最后一种则是神经网络。把本文提出的方法与核主成分分析(KPCA),局部线性嵌入(LLE),等距特征映射(ISOMAP)以及核线性判别分析(KLDA)作了一个比较,结果表明TL-FDA比经典特征提取方法表现更好。