基于自步学习和鲁棒估计的属性选择算法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:chenweifan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代的高维大数据通常呈现高维,多样性的特点。由于这些数据在积累的过程没有经过选择,使得高维大数据存在大量的不相关,冗余的属性,而能有效表达数据功能的属性被隐藏其中。这不但会增加存储数据所需的空间,还会消耗大量的计算资源,特别是随着数据维度的增加达到某一个值时,反而会导致数据挖掘算法性能的下降。因此对高维数据进行维数约简对于解决目前高维数据面临的诸多问题具有重要意义。属性选择作为维数约简的一种有效方法,在可靠性和对结果的解释性上都好于子空间学习方法,但子空间学习可用于探索数据的内部结构。所以本文结合这两种方法,从自步学习和鲁棒估计的角度,针对目前的属性选择算法未能充分考虑噪声和异常值影响以及忽略实现世界中的数据大多存在的流行结构从而导致的数据挖掘算法性能不佳等问题,提出了两种属性选择算法。具体如下:(1)针对现有属性选择模型没有充分考虑离群训练样本的影响而导致模型泛化能力差问题,提出一种结合自步学习和稀疏学习的有监督属性选择算法。具体地,首先通过自步学习理论优先选择高置信度的样本来训练初始属性选择模型,然后依次加入次高置信度的训练样本增加初始选择模型的泛化能力,直至增加的训练样本使得模型的泛化能力减弱或者所有训练样本被用完。最后用选择的属性进行多元回归分析检验提出的SPM_RS算法的性能。六个公开的数据集上实验结果显示,该算法在回归分析中得到的结果均优于对比算法。(2)传统的属性选择模型易受异常值的影响,同时未能考虑到数据中的局部流行结构,所以在本文中,我提出通过学习一个变换矩阵来进行鲁棒图降维,在不受异常值影响的情况下将原始高维数据映射到其低维属性空间。为了做到这一点,1)我提出的方法同时自适应学习三个矩阵。即,原始数据的反向图嵌入矩阵,变换矩阵,以及在其低维属性空间中保持原始数据局部相似性的图矩阵;2)使用鲁棒估计器,避免这三个矩阵优化过程中的异常值的影响。因此,原始数据通过两种策略进行清理,即,基于三个结果变量和鲁棒估计器对原始数据的预测。利用反向图嵌入和图矩阵的方法,从精确估计的属性空间中学习变换矩阵。此外,对所得的目标函数提出了一种新的优化算法,并从理论上证明了算法的收敛性。实验结果表明,该方法在不同的分类任务上优于所有的比较方法。综上所述,本文创新的将自步学习和鲁棒估计嵌入属性选择模型,自步学习作为一种鲁棒学习方法倾向于平稳的探索数据,鲁棒估计通过给异常值赋予较低的权值来最小化异常值的影响,并结合流行学习探索数据的内部结构。为了测试提出方法的性能,所有的实验均在公开数据集上进行,并与最近几年优秀的降维算法做对比,使用分类和回归作为评价方法。实验结果显示,我设计的方法性能优于对比算法,证明了我提出方法的有效性。
其他文献
电力系统动态仿真是掌握系统动态行为的重要手段,其仿真结果的可信度直接关系到电力系统运行的安全性与经济性。经国内外多次扰动试验分析后,表明基于现有模型库的仿真结果不
随着我国互联电网规模逐渐扩大,电力系统结构越来越复杂,由此产生的低频振荡问题严重威胁着电力系统的安全稳定运行。如何对低频振荡进行抑制的研究成为了学者探究的热点问题
无线光通信由于无需频谱认证、超宽带宽、低功耗等优点在近几年引起了广泛的关注,非视距紫外散射通信能够克服传统无线光通信收发端需对准的缺陷,但是加大了通信系统接收端灵
国家大剧院施工测量获中国测绘学会科学技术奖励委员会优秀工程奖金奖,证书编号为2007-03-01-02,主要完成人有秦长利、张从思、侯进峰、张晶、邵茂等,完成单位为北京城建勘测
会议
环糊精(cyclodextrin,简称CD)在生物催化中有着复杂的作用机制,可以通过包结作用增加底物溶解度,也可以与菌体细胞相互作用,影响生物催化的效率。目前,不同CD结构对生物催化
目的:刺猬因子(Hedgehog,Hh)信号通路广泛参与脊椎动物的胚胎发育和组织稳态的调控。已有报道认为,Hh参与骨性关节炎的发生和发展,但是其机制尚未详细阐述。本研究通过小鼠右
动物的肠道中存在着数量巨大的微生物,肠道微生物对动物的营养和代谢等方面起着重要作用,并且影响着宿主的许多生理功能。研究表明,季节性冬眠的哺乳动物肠道微生物会发生季
抗生素等药物性饲料添加剂的滥用已经使畜禽业收到了巨大的危害,不仅使畜禽的耐药性增强,免疫力下降,也会对环境造成污染。所以找寻一种无毒无害的抗生素代替品十分重要。作
基于解决控制工程中物理状态难以测量相关问题的需要,推动了状态重构问题的研究。区间观测器通过建立了一组动态系统,分别实现了对状态上下界的估计,突破了传统意义上的观测
目的:应用剪切波弹性成像技术(shear wave elastography,SWE)检测脑死亡(donation after brain death,DBD)供肝硬度,依据肝移植受体术后早期肝功能恢复情况分析对比,探讨SWE