论文部分内容阅读
科学技术的发展和新兴商业模式的出现带来了多种类型数据的产生和积累,例如天文数据、社交数据、电商数据等。利用机器学习技术进行数据分析并挖掘数据中蕴含的知识和规律具有重要的科学意义和经济价值。实际数据特征维度高、大部分无标注,给数据分析任务带来了巨大挑战。本文从特征选择和样本选择(主动学习)两个方面深入系统研究高维标注受限数据的分析方法,主要成果总结如下: 针对数据特征维度高、带噪声等问题,本文提出一种新的鲁棒无监督特征选择方法。该方法同时将鲁棒图嵌入和鲁棒谱回归引入无监督特征选择,其中用鲁棒图嵌入处理原始数据的噪声同时估计数据的聚类结构,并用鲁棒谱回归进一步去除聚类结构上的稀疏噪声,从而提高特征选择的鲁棒性。实验结果表明,本文提出的鲁棒无监督特征选择方法的性能优于现有方法。 针对标注数据受限问题,本文提出一种基于多样性数据重构的样本选择方法,该方法将多样性机制无缝地融合到数据重构过程中,从而减少了被选样本间的信息重合度,有效缓解了现有数据重构方法存在的冗余问题。实验结果表明,本文提出的方法在性能上明显优于主流对比方法。 提出特征和样本联合学习框架,该框架在联合优化的特征空间中选择样本,并利用样本间重构关系更新特征表示。基于此框架,首先提出特征和样本联合选择方法,并利用局部学习对数据局部信息进行刻画,进一步提升联合选择的效果。然后,提出基于深度数据重构的主动学习方法,该方法将深度特征学习和样本选择进行联合优化,同时引入虚拟样本处理大规模数据。实验结果验证了提出的特征和样本联合学习框架的有效性。 针对冷启动推荐这一典型标注数据受限的实际应用,本文提出了一个新的冷启动推荐方法,该方法采用局部数据重构策略选择样本,并利用两轮问询机制获取用户对这些样本的偏好标注,其中第一轮问询根据用户对全局样本的反馈进行用户分组,而第二轮问询采用局部代表性样本刻画用户偏好。实验结果表明,本文提出的冷启动推荐方法的表现优于对比方法。