论文部分内容阅读
随着大数据和人工智能技术的蓬勃发展,社会各行业领域中都积累了大量的高维属性数据,高维属性数据中都会存在大量相关的冗余属性,高维属性数据不仅会增加存储空间的负担,而且占用了大量计算资源开销,更严重的是:高维属性数据会大大增加数据挖掘和知识发现的难度。从高维属性数据中提取有价值的特征信息已经变得相当的困难。如何从这些海量的高维属性数据中提取重要特征信息并挖掘出更为有价值的潜在信息目前已成为目前研究的一个热点。以属性选择算法为代表的数据预处理技术是解决该问题的关键。因此,本文针对已有的属性选择方法只是单纯的考虑属性与标签之间的线性关系,没有考虑到属性与标签之间非线性关系的缺点,提出了基于核稀疏表示的属性选择算法。针对传统的属性选择算法经过属性选择后,样本属性之间仍然存在极高的相关性的缺点,提出了基于主成分分析的属性选择算法。经过理论推导和大量的实验证明,本文提出的两个属性选择算法是有效的,在分类准确率和稳定性上都有较大的提升。具体如下:(1)基于核稀疏表示的属性选择算法(KSFS属性选择算法)。针对样本属性与类标签之间存在非线性角度分析,本文在第三章节中提出了一种新的将核函数与稀疏学习相结合的属性选择算法,具体地,首先将每一维属性利用核函数映射到核空间,在此高维核空间上执行线性属性选择从而实现低维空间上的非线性属性选择;其次,对映射到核空间上的属性进行稀疏重构,得到原始数据集的一种稀疏表达方式;接着利用l1-范数构建属性评分选择机制,选出最优属性子集;最后,将属性选择后的数据用于分类实验。在公开数据集上实验结果表明,该算法能够较好地实现属性选择,与对比算法相比分类准确率可提高约3%。(2)基于主成分分析的属性选择算法(PCFS属性选择算法)。针对传统的属性选择算法在经过属性选择后样本中仍然存在大量的相关冗余属性的问题。本文在第四章节中提出了一个新颖的将主成分分析和稀疏学习相结合的无监督属性选择算法,该算法可以从无类标签的数据属性中选出重要属性,去除冗余属性,从而实现属性选择。具体地,首先将数据集的属性通过投影矩阵投影到新空间中,利用属性自表达的特性,将投影后的属性由原始属性进行线性自表征,同时利用l2,1-范数稀疏正则化因子进行属性选择;然后嵌入主成分分析正则项来保证属性选择的数据样本方差最大化,以此来保留数据的主要信息,接着引入正交约束来保证属性选择之后特征属性线性无关性,并将得到的属性稀疏矩阵来构建属性选择评分机制,选出最优化的属性子集,从而高效率地实现属性选择目的,去除冗余属性;最后将属性选择后的属性子集用于分类实验。通过实验结果表明,在公开的数据集上PCFS属性选择算法能够很好的实现属性选择算法,与对比算法相比分类准确率提高了2.5%。本文针对已有的属性选择方法只是单纯的考虑属性与标签之间的线性关系,没有考虑到属性与标签之间的非线性关系的缺点,提出了基于核稀疏表示的属性选择算法。针对传统的属性选择算法经过属性选择后的样本属性之间仍然存在极高的相关性缺点,提出了基于主成分分析的属性选择算法。针对本文提出的两个新的属性选择算法都经过了理论推导和证明,同时,为了验证本文提出的算法和对比算法的性能,论文中所有算法均在统一实验环境下进行实验和分析。经过大量的实验结果显示,本文提出的两个属性选择算法在分类准确率和算法性能稳定性上均优于对比算法。在未来的科研工作中,本人将考虑结合深度学习技术提出新的属性选择模型。