论文部分内容阅读
随着计算机需要处理的数据的维数越来越大,数据降维技术已经成为一项越来越重要的数据处理技术。数据降维的目标是在保持分类和决策能力的前提下,去除掉数据中不相关或者不重要的信息。数据降维可以提高学习算法的泛化能力、建模的计算效率和数据的可解释性。在学者们已经提出的众多数据降维算法中,偏最小二乘降维方法PLSDR(Partial Least Squares based Dimension Reduction)是其中较为有效的算法之一。本文以偏最小二乘降维方法为研究对象,提出了一个完整的偏最小二乘降维框架。本文对偏最小二乘降维方法进行了深入的研究,并在新框架下提出了一系列算法,探讨了他们的应用。本文主要取得了如下成果:1)提出了一种偏最小二乘降维框架(Partial Least Squares based Dimension Reduction Framework)。以往的偏最小二乘降维算法的研究工作经常忽视的两个问题是无关或冗余特征的选择问题和偏最小二乘成份的选择问题。针对这些问题,我们提出了一种基于偏最小二乘的数据降维框架,将特征选择和模型选择整合到偏最小二乘降维方法的统一框架中。2)提出了多种偏最小二乘降维框架中的预处理算法。预处理是偏最小二乘降维框架中的重要一环,其目标是在偏最小二乘建模之前,去除原始数据中的无关和冗余特征。针对无关特征的去除,我们提出了以随机产生的探针变量的t-统计值,查找无关特征的PLSDR-G(PLSDR with Gene elimination)算法。对于冗余特征的去除,我们提出了一种新颖的有监督的基于区分能力贡献度的冗余特征检测指标DISC(DIScriminative Contribution);基于DISC指标,我们提出了基于区分能力贡献度的冗余特征去除算法REDISC(Redundancy Elimination based on DIScriminative Contribution)。3)提出了多种偏最小二乘降维框架中的后处理算法。后处理是偏最小二乘降维框架中关键步骤之一,其目标是从抽取出的偏最小二乘成份中选择一部分成份,并将其作为最终的降维后的数据空间。对于后处理,我们提出了两种解决方案:基于回归拟合度的成份选择算法和嵌入式的成份选择算法。回归拟合度R y2是评价偏最小二乘模型建模质量的一个重要指标,基于该指标我们提出了两种模型选择算法:PAS算法(PLSDR with model selection by using Absolute R y2 Scores)和PIS(PLSDR with model selection by using Incremental R y2 Scores)算法。嵌入式方案是将特征选择嵌入特征抽取的FSBFE算法(Feature Selection Based Feature Extraction),其基本原理是通过遗传算法将分类器嵌入到模型选择中,从而能在全部的PLS成份挑选出性能较优的一部分。4)将偏最小二乘降维方法应用到文本分类(text classification)问题中,并取得了较好的效果。通过抽取出隐含的文档语义对文档进行表示,是解决文档中一词多义和多词一义问题的一个有效的方法。针对现有的潜在语义索引模型没有考虑类别信息的缺点,我们提出了两种采用偏最小二乘方法抽取文本语义的模型:偏最小二乘语义索引SIPLS(Semantic Indexing based on Partial Least Squares)和局部偏最小二乘语义索引LSIPLS(Local Semantic Indexing based on Partial Least Squares)。