偏最小二乘降维方法的研究与应用

来源 :上海大学 | 被引量 : 19次 | 上传用户：zhangstian

【摘要】

：

随着计算机需要处理的数据的维数越来越大,数据降维技术已经成为一项越来越重要的数据处理技术。数据降维的目标是在保持分类和决策能力的前提下,去除掉数据中不相关或者不重

【作者】

：

曾雪强

【出处】

：

上海大学

【发表日期】

：

2009年01期

【关键词】

：

数据降维特征抽取偏最小二乘降维

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机需要处理的数据的维数越来越大,数据降维技术已经成为一项越来越重要的数据处理技术。数据降维的目标是在保持分类和决策能力的前提下,去除掉数据中不相关或者不重要的信息。数据降维可以提高学习算法的泛化能力、建模的计算效率和数据的可解释性。在学者们已经提出的众多数据降维算法中,偏最小二乘降维方法PLSDR(Partial Least Squares based Dimension Reduction)是其中较为有效的算法之一。本文以偏最小二乘降维方法为研究对象,提出了一个完整的偏最小二乘降维框架。本文对偏最小二乘降维方法进行了深入的研究,并在新框架下提出了一系列算法,探讨了他们的应用。本文主要取得了如下成果:1)提出了一种偏最小二乘降维框架(Partial Least Squares based Dimension Reduction Framework)。以往的偏最小二乘降维算法的研究工作经常忽视的两个问题是无关或冗余特征的选择问题和偏最小二乘成份的选择问题。针对这些问题,我们提出了一种基于偏最小二乘的数据降维框架,将特征选择和模型选择整合到偏最小二乘降维方法的统一框架中。2)提出了多种偏最小二乘降维框架中的预处理算法。预处理是偏最小二乘降维框架中的重要一环,其目标是在偏最小二乘建模之前,去除原始数据中的无关和冗余特征。针对无关特征的去除,我们提出了以随机产生的探针变量的t-统计值,查找无关特征的PLSDR-G(PLSDR with Gene elimination)算法。对于冗余特征的去除,我们提出了一种新颖的有监督的基于区分能力贡献度的冗余特征检测指标DISC(DIScriminative Contribution);基于DISC指标,我们提出了基于区分能力贡献度的冗余特征去除算法REDISC(Redundancy Elimination based on DIScriminative Contribution)。3)提出了多种偏最小二乘降维框架中的后处理算法。后处理是偏最小二乘降维框架中关键步骤之一,其目标是从抽取出的偏最小二乘成份中选择一部分成份,并将其作为最终的降维后的数据空间。对于后处理,我们提出了两种解决方案:基于回归拟合度的成份选择算法和嵌入式的成份选择算法。回归拟合度R y2是评价偏最小二乘模型建模质量的一个重要指标,基于该指标我们提出了两种模型选择算法:PAS算法(PLSDR with model selection by using Absolute R y2 Scores)和PIS(PLSDR with model selection by using Incremental R y2 Scores)算法。嵌入式方案是将特征选择嵌入特征抽取的FSBFE算法(Feature Selection Based Feature Extraction),其基本原理是通过遗传算法将分类器嵌入到模型选择中,从而能在全部的PLS成份挑选出性能较优的一部分。4)将偏最小二乘降维方法应用到文本分类(text classification)问题中,并取得了较好的效果。通过抽取出隐含的文档语义对文档进行表示,是解决文档中一词多义和多词一义问题的一个有效的方法。针对现有的潜在语义索引模型没有考虑类别信息的缺点,我们提出了两种采用偏最小二乘方法抽取文本语义的模型:偏最小二乘语义索引SIPLS(Semantic Indexing based on Partial Least Squares)和局部偏最小二乘语义索引LSIPLS(Local Semantic Indexing based on Partial Least Squares)。

其他文献

关于中日接触场面中感谢表现的研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

接触场面感谢表现日语母语话者中国人日语学习者

湘辉低浓度酸性废水处理方法探讨

期刊

低浓度酸性废水处理钢材

实施创新驱动发展战略促进黟县经济社会全面协调发展

近年来,在黄山市委、市政府的坚强领导下,黟县全面落实关于推进创新驱动发展的各项决策部署,健全服务体系,完善项目服务制度,提高企业技术创新能力,为全县经济社会全面协调发

期刊

创新驱动发展战略经济社会全面协调发展

三种蛇毒类血凝酶对患者纤维蛋白原作用的临床观察

蛇毒类血凝酶在临床上主要用于出血性疾病的治疗,特别是毛细血管的出血,可明显缩短患者的出血时间,减少出血量[1,2]。因其具有高效、速效、长效、方便、安全、不被凝血酶抑制

期刊

低纤维蛋白原血症白眉蛇毒血凝酶矛头蝮蛇血凝酶纤维蛋白原临床观察

一种基于“特征降维”文本复杂网络的特征提取方法

期刊

文本复杂网络特征降维PCA特征提取

经济社会变迁与农民伦理变革:湖北S村农民合作的个案研究

接续韦伯命题所引发的经济社会变迁对于农民伦理的影响的争论,以湖北S村为关键案例,考察在农业经营结构改变的前提下,小农的心理境况经历了怎样的变动,其如何与国家、地方政

期刊

经济社会变迁农民伦理农民合作韦伯命题

分析高速公路施工内业资料整理归档的作用

随着社会经济的发展,高速公路建设进入到了蓬勃发展的新时期.在公路工程建设过程中,施工内业资料作为重要的施工信息,是业主向施工方拨付工程款的根本依据;作为工程档案的重

期刊

高速公路施工内业资料整理归档作用

颜色恒常性计算研究

知觉恒常性作为人类视觉系统最基本和最重要的功能之一,对人类正确稳定地感知世界起着极其重要的作用。为了使计算机视觉系统具有类似的感知功能,知觉恒常性计算成为了计算机

学位

颜色恒常性颜色不变性描述ELM威布尔分布不变矩

关于铁路列车的生产管理的探讨

本文以轨道列车为研究对象,从其生产过程中的管理方法以及措施进行分析,并在此基础上探析调动生产团队以及配套服务资源的方法,旨在提供一定的生产管理方法,促进城市轨道列车

期刊

全球一体化轨道生产管理

教师清一色女性杭州一幼儿园从小学“借”男老师

幼儿园孩子画的画,不是扎着辫子就是穿着裙子的清一色的女教师形象。因为在孩子们眼中,“老师都是女的啊,叔叔肯定不是老师”。如何解决这一尴尬的问题?杭州市拱墅区舟山路幼

期刊

幼儿园中小学教师男教师杭州市拱墅区

偏最小二乘降维方法的研究与应用

与本文相关的学术论文