论文部分内容阅读
高维数据降维问题一直是统计机器学习和数据分析的核心问题之一,有着广泛的应用基础。协变量(包括噪音变量、冗余变量)对数据的影响无处不在,尤其当协变量呈现高维形态,大部分变量的影响可以忽视时,此时变量选择显得尤为重要。本论文主要考虑:(1)基于变量选择的应用于统计分类数据异常值的检测与识别;(2)数值型变量数据无监督学习聚类的变量选择;以及(3)(高维)协变量影响下Ⅱ-型逐阶删失数据的特征选择。异常值的存在使得分类器的制定变得更为复杂。论文第一部分探讨了在选择合适分类器之前,如何检测及识别异常值问题。通过综合复相关系数计算,特征变量选择降维和t-检验稀疏化方法以及基于标准互信息的降维方法,给出了一种异常值矩阵检测识别的新方法。数值分析以及低维鸢尾花数据、高维DBWORD E-mail数据的应用结果均表明该方法在识别异常值应用中有着良好的表现。在无监督学习聚类分析中,Rodriguez and Laio(2014)于SCIENCE上提出的关于快速寻找密度峰值进而聚类的算法(简称RL算法),此方法由于不需要迭代遍历所有数据点的优越性而被广泛关注。本论文将RL算法推广于数据流的应用分析中,同时研究了在高维数据中如何根据稀疏主成分降维简化数据结构,进而应用RL算法对高维数据进行有效聚类。模拟数据和实际Olivetti人脸识别数据聚类分析结果验证了算法的有效性。在生存分析参数模型中,参数估计为研究生存数据统计性质提供了依据。当协变量个数众多而部分协变量对生存寿命的影响可忽略不计时,寻找起主要作用的协变量,即进行特征选择降维以简化模型成为首要问题。论文探讨了在高维协变量下的Ⅱ-型逐阶删失数据的Lasso型部分似然函数的变量选择,并通过应用模拟数据、退伍军人管理局肺癌数据以及原发性胆汁性肝硬化数据验证了此结果的有效性。