基于核稀疏和主成分分析的属性选择算法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:c224224224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和人工智能技术的蓬勃发展,社会各行业领域中都积累了大量的高维属性数据,高维属性数据中都会存在大量相关的冗余属性,高维属性数据不仅会增加存储空间的负担,而且占用了大量计算资源开销,更严重的是:高维属性数据会大大增加数据挖掘和知识发现的难度。从高维属性数据中提取有价值的特征信息已经变得相当的困难。如何从这些海量的高维属性数据中提取重要特征信息并挖掘出更为有价值的潜在信息目前已成为目前研究的一个热点。以属性选择算法为代表的数据预处理技术是解决该问题的关键。因此,本文针对已有的属性选择方法只是单纯的考虑属性与标签之间的线性关系,没有考虑到属性与标签之间非线性关系的缺点,提出了基于核稀疏表示的属性选择算法。针对传统的属性选择算法经过属性选择后,样本属性之间仍然存在极高的相关性的缺点,提出了基于主成分分析的属性选择算法。经过理论推导和大量的实验证明,本文提出的两个属性选择算法是有效的,在分类准确率和稳定性上都有较大的提升。具体如下:(1)基于核稀疏表示的属性选择算法(KSFS属性选择算法)。针对样本属性与类标签之间存在非线性角度分析,本文在第三章节中提出了一种新的将核函数与稀疏学习相结合的属性选择算法,具体地,首先将每一维属性利用核函数映射到核空间,在此高维核空间上执行线性属性选择从而实现低维空间上的非线性属性选择;其次,对映射到核空间上的属性进行稀疏重构,得到原始数据集的一种稀疏表达方式;接着利用l1-范数构建属性评分选择机制,选出最优属性子集;最后,将属性选择后的数据用于分类实验。在公开数据集上实验结果表明,该算法能够较好地实现属性选择,与对比算法相比分类准确率可提高约3%。(2)基于主成分分析的属性选择算法(PCFS属性选择算法)。针对传统的属性选择算法在经过属性选择后样本中仍然存在大量的相关冗余属性的问题。本文在第四章节中提出了一个新颖的将主成分分析和稀疏学习相结合的无监督属性选择算法,该算法可以从无类标签的数据属性中选出重要属性,去除冗余属性,从而实现属性选择。具体地,首先将数据集的属性通过投影矩阵投影到新空间中,利用属性自表达的特性,将投影后的属性由原始属性进行线性自表征,同时利用l2,1-范数稀疏正则化因子进行属性选择;然后嵌入主成分分析正则项来保证属性选择的数据样本方差最大化,以此来保留数据的主要信息,接着引入正交约束来保证属性选择之后特征属性线性无关性,并将得到的属性稀疏矩阵来构建属性选择评分机制,选出最优化的属性子集,从而高效率地实现属性选择目的,去除冗余属性;最后将属性选择后的属性子集用于分类实验。通过实验结果表明,在公开的数据集上PCFS属性选择算法能够很好的实现属性选择算法,与对比算法相比分类准确率提高了2.5%。本文针对已有的属性选择方法只是单纯的考虑属性与标签之间的线性关系,没有考虑到属性与标签之间的非线性关系的缺点,提出了基于核稀疏表示的属性选择算法。针对传统的属性选择算法经过属性选择后的样本属性之间仍然存在极高的相关性缺点,提出了基于主成分分析的属性选择算法。针对本文提出的两个新的属性选择算法都经过了理论推导和证明,同时,为了验证本文提出的算法和对比算法的性能,论文中所有算法均在统一实验环境下进行实验和分析。经过大量的实验结果显示,本文提出的两个属性选择算法在分类准确率和算法性能稳定性上均优于对比算法。在未来的科研工作中,本人将考虑结合深度学习技术提出新的属性选择模型。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是近二十多年来研究最为热门的技术之一。其自身优势的特点是,与其他技术相比,无线传感器网络可以长时间自主地执行监控任务,且
目标跟踪技术作为计算机视觉领域的研究热点之一,在视频监控,智能驾驶以及人机交互等领域有着广泛的应用。尽管国内外专家学者提出了各种各样的算法,但由于目标跟踪技术应用
随着科学技术的不断发展,现实生活中会有大量的数据产生和积累,这也促使人们不断去挖掘数据背后的信息和价值。聚类分析的结果能了解到数据本身的分布信息和对应的结构,从而
随着网上购物规模的不断扩大,对商品评论信息进行情感分析不仅可以指导消费者做出更好的购买决策,还能帮助商家了解商品的优劣势,从而调整店铺的营销策略,对买卖双方都具有重
随着移动机器人被广泛应用于各种领域,移动机器人的自主导航技术成为国内外研究的热点,而作为自主导航关键技术的路径规划算法也成为研究工作者们关注的重点之一。本文介绍各
可见光通信(Visible light communications,VLC)是指待传输信息比特经过编码调制,以385THZ-789THZ的可见光为载波,通过LED灯快速闪烁来传输信息的一种新型无线通信方式。该技术在实际应用时需同时兼顾照明和通信的双重作用,因此需采用多LED阵列布局来保证照明,及多阵列协同传输编码技术来保证通信有效性及可靠性。本文对光源布局、信息空域和时域编码、级联编码等技术展开
基于位置的服务为我们的生活提供了极大的便利,相关研究引起国内外研究者的关注。近年来,由于信道状态信息(Channel State Information,CSI)包含丰富的多径信息并且高度稳定,
近年来我国大力推进以分布式能源为代表的可再生能源发展,随之兴起的直流微网技术、电网与电动汽车间的交互技术和各类型储能系统中均存在双向DC-AC变流器的身影。因此,研究
认罪认罚从宽制度下最重要的环节就是量刑协商,这是在新时代依法治国政策下,对被追诉人利益保护的一种刑事司法体现。量刑协商制度作为一种舶来品似乎引来一些争议,不断冲击着传统司法原则和朴素的刑罚正义观,但其存在有着不可忽视的必要性和可行性。通过实际调查研究、文献分析和案例解读,破题点出当下量刑协商制度的首要问题是立法意识不清,同时量刑协商实体内容与司法程序定位不清、操作混乱,随之而来引发量刑建议精准度不
学位
脉冲涡流热成像利用电磁脉冲对试样进行热激励,裂纹引起试样表面温度分布变化,经热像仪获取其热图像,通过特征提取算法实现裂纹检测。为提升非铁磁材料表面浅裂纹的检测效果,