论文部分内容阅读
在机器学习中,原型选择(即实例选择、样本选择)和属性约简(即特征选择、属性选择)成了数据挖掘中必不可少的步骤,在机器学习中变得越来越重要。属性选择以及样本选择在机器学习中,是两个重要的数据预处理步骤,其中前者旨在从给定的数据集中去除一些不相关或者冗余的特征,而后者则是通过一定的指标去除有缺陷或者重复的记录。本文围绕无监督环境下样本和特征的协同选择展开了研究,其主要工作和创新点如下:(1)提出了一种基于数据集中属性或实例所携带信息量的衡量的重要度指标。针对无监督学习任务,可以通过聚类生成伪标签,将其转换为监督学习任务。利用模糊粗糙集的相关知识,以距离的方式度量特征之间的相似性,将属性之间的相关性衡量以及样本之间的关联性量化相结合,同时,与已有的基于信息熵的方法不同,该指标通过考虑关系的势而不是相似类来达到减低计算复杂度的目的。同时就所提出的指标的相关性质进行了讨论和验证,指标的单调性也保证了进行选择学习任务结果的有效性。基于提出的指标,给出了一种用于特征选择的贪心前向选择算法,并利用实验验证了所提出指标的有效性和实用性。(2)提出了一种新的算法,将谱聚类与字典学习相结合,能够实现无监督特征选择。在字典学习中,通过共享特征和伪标签的内在特征空间,以确保数据分布的一致性。聚类结构被编码进字典学习,以保证遵从数据分布的先验。然后通过计算从数据矩阵到内在特征空间的投影矩阵,获取原始特征空间的特征排序。将2范数用于投影矩阵以获得特征的重要度排序,利用交替最小化算法优化所提出的模型,达到特征选择的目的。针对在本文中所提出的学习模型,设计了一定的基准实验,以验证其可行性和有效性。(3)基于前文所提出的方法,进行了模型上的推广,使其能够解决样本和特征的协同选择。特征和样本是同一数据的不同角度的描述,通过将样本的信息添加到所提出的特征选择框架中,使其能够完成对特征和样本的协同选择。同时,通过不同的数值转换方法,利用推广的模型验证了在一定学习任务的前提下,不同转换方法将符号型数据转换为数值型数据的性能表现。