基于特征选择的高维数据统计分析

来源 :兰州大学 | 被引量 : 3次 | 上传用户:wxj1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据降维问题一直是统计机器学习和数据分析的核心问题之一,有着广泛的应用基础。协变量(包括噪音变量、冗余变量)对数据的影响无处不在,尤其当协变量呈现高维形态,大部分变量的影响可以忽视时,此时变量选择显得尤为重要。本论文主要考虑:(1)基于变量选择的应用于统计分类数据异常值的检测与识别;(2)数值型变量数据无监督学习聚类的变量选择;以及(3)(高维)协变量影响下Ⅱ-型逐阶删失数据的特征选择。异常值的存在使得分类器的制定变得更为复杂。论文第一部分探讨了在选择合适分类器之前,如何检测及识别异常值问题。通过综合复相关系数计算,特征变量选择降维和t-检验稀疏化方法以及基于标准互信息的降维方法,给出了一种异常值矩阵检测识别的新方法。数值分析以及低维鸢尾花数据、高维DBWORD E-mail数据的应用结果均表明该方法在识别异常值应用中有着良好的表现。在无监督学习聚类分析中,Rodriguez and Laio(2014)于SCIENCE上提出的关于快速寻找密度峰值进而聚类的算法(简称RL算法),此方法由于不需要迭代遍历所有数据点的优越性而被广泛关注。本论文将RL算法推广于数据流的应用分析中,同时研究了在高维数据中如何根据稀疏主成分降维简化数据结构,进而应用RL算法对高维数据进行有效聚类。模拟数据和实际Olivetti人脸识别数据聚类分析结果验证了算法的有效性。在生存分析参数模型中,参数估计为研究生存数据统计性质提供了依据。当协变量个数众多而部分协变量对生存寿命的影响可忽略不计时,寻找起主要作用的协变量,即进行特征选择降维以简化模型成为首要问题。论文探讨了在高维协变量下的Ⅱ-型逐阶删失数据的Lasso型部分似然函数的变量选择,并通过应用模拟数据、退伍军人管理局肺癌数据以及原发性胆汁性肝硬化数据验证了此结果的有效性。
其他文献
控制城市蔓延,引导城市集约发展、精明增长是推动新型城镇化中的重要任务。城市开发边界作为控制城市蔓延的一项重要的政策抓手正在各地迅速展开。为了更好地支持我国城市开
诸葛亮对汉中可谓情有独钟。本文从人文地理学角度,对诸葛亮的文化价值人格、现实人格和人文精神进行了深入的分析,并指出汉中独特的自然地理、民情习俗成为这种人格和精神的承
目的:观察厄贝沙坦对抗糖尿病大鼠心肌纤维化的作用,并分析细胞外调节信号激酶(ERK)通路在其中的作用。方法:健康雄性SD大鼠32只,随机分成两组:正常对照组(CON,n=10),实验组(n=22)。实
以明清时期女装立领的形制为切入点,回溯历史脉络,将服装与历史人文、时代思潮相结合进行研究,探寻明清时期 女装立领的衍变过程。具体分析女装立领产生时的形制与变化后形制
后勤保障社会化,是武警现代后勤建设的重要内容,是减员增效、降低成本,提高后勤保障效益和质量的重大举措。本文从深化理论研究、搞好全局规划,为后勤保障社会化提供系统的理
全要素生产率增长是经济长期增长的重要源泉,而考虑了能源投入和污染等非期望产出的绿色全要素生产率则是转变中国经济增长方式,实现经济可持续增长的重要保障。本文通过构建
一部宣传中国共产党的宣传片《我是谁》借助良好的传播媒介,选择足够平民化的人物,以及使用符合受众心理的视频长度,获得大多数网友点赞。这部短片的成功,给我们党的宣传工作
明代华南地区的水利建设取得了一定的成就,在全国表现较为突出。本文对福建、广东、广西三布政使司的水利事业进行了全面考察,着重论述了水利发达的地区,指出水利建设的情况对农
1.医学伦理学的学科建设(医学伦理学的学科体系、学术体系、话语体系建设;中国医学伦理学回顾与展望;新中国成立以来医疗卫生事业发展的伦理研究;互联网+医学伦理学教育;教学
在市场经济条件下,企业生产经营的最终目标是追求最大经济效益,一切经营活动都以经济效益为中心.激烈的市场竞争给建筑施工企业的生存和发展提出更高的要求,他们为了适应市场