论文部分内容阅读
实际应用中,高维数据的问题广泛存在,高维数据具有复杂的数据结构、多样的指标类型、潜在的影响因素、信息量庞大以及计算难度大等特点,长期以来,在高维数据的相关研究中,常见的统计研究方法局限于理论相对简单的线性回归模型及Logistic建模方法,而对于处理多变量具有一定优势的高维Copula数学建模方法鲜有涉及。Copula建模方法是统计分析中重要的一块理论知识,对复杂架构下的多变量间相关关系分析有着独特的优势。本文针对高维数据的变量选择和模型选择两方面问题进行研究,采用不同类型的高维Copula方法进行建模分析,具体而言,本文的工作大致可以分为两个部分:第一部分重点研究了高维数据的Copula建模方法下的模型选择问题,具体的采用了基于R藤的方法对模型进行构建,其中,主要涉及到节点的选择和Copula对的函数选取两个关键问题,针对上述问题建立起了贪婪算法,该算法的基本思想是先结合修改的赤池信息准则确定树的节点,再结合权重的思想对节点间的Copula对进行选择,从而依据最小生成树原理得出整体的模型结构,在应用中具有计算复杂度相对较低,操作易实现且具有高度的灵活性等优势。最终,将该方法应用到了探究人体11个不同部位微生物群落的相关关系问题中,从而有效地说明了方法的有效性和适用性。研究结果表明,在人体部位的相关性研究中,并非距离越近的部位相关性就越强,有时看似较远的两个部位之间仍具有较高的相关关系。第二部分则研究了基于D藤的分位数回归方法下的变量选择问题,具体而言,主要考虑响应变量同时受到多个指标变量的影响,通过分位数回归的方法,得出在不同风险水平下,不同指标对响应变量的影响,并将该模型用于试管婴儿数据研究中,研究结果表明,为了获得理想的妊娠结局,整个孕期都应严密关注身体质量指数这一重要指标,对于高危孕妇来说,尤其要注重年龄、取卵数目与优质胚胎率这三项指标,它们对妊娠结局都有着较大的影响。通过对上述所建立的模型选择模型以及变量选择模型的相关应用展开讨论,本文所建立的模型选择及变量选择方法适应了实际研究中对大多数高维数据的模型选择及变量选择的需求,结合处理高维数据具有较大优势的高维Copula建模方法,如基于分位数下的Copula建模方法等,并得到与实际较为适应的研究方法,对模型选择和变量选择方面的相关研究具有一定的参考价值和指导意义。