【摘 要】
:
随着计算机智能存储,云计算等新技术的发展,海量高维数据已渗透到生活的各个领域,如基因表达,风险控制,组合化学,专家推荐系统等等。变量选择作为高维数据分析的核心问题之一
论文部分内容阅读
随着计算机智能存储,云计算等新技术的发展,海量高维数据已渗透到生活的各个领域,如基因表达,风险控制,组合化学,专家推荐系统等等。变量选择作为高维数据分析的核心问题之一已越来越引起广泛关注。有效的变量选择不仅可以简化模型也可提高模型的可解释性及预测精度。本文将致力于考虑基因数据大p小n情况下的变量选择,其中解释变量均为离散变量。在高维数据分析中,一般的变量选择方法是将充分降维与罚函数相结合得到稀疏解。本文将利用边际回归根据重要性大小对解释变量进行排序,给定合理的结构维数,在Yin关于大p小n降维理论基础上做关于全离散解释变量的变量选择。在数据模拟中,根据关联变量聚集度,以及解释变量之间的独立性分别进行分析。本文的方法无论在关联变量聚集或是分散时都适用,并对非独立型解释变量也具有一定的效果,与之相比,在解释变量独立时表现较优。例如考虑p=3000,病例对照组的样本量分别为100时,TPR达到86%,病例对照组样本量分别为300时,TPR达到99.8%。
其他文献
价值观是什么?中国人的价值观在哪里?中国人有什么样的价值观?这是每一个关心中国文明进步与社会发展的人所关心的问题。被列入“十二五”国家重点图书出版规划项目、国新办外宣
目的探讨产妇并发产后尿潴留的发生因素以及预防护理措施。方法回顾性分析2011-01~2013-01期间分娩并发产后尿潴留的产妇64例完整资料作为研究对象,对所有产妇的临床资料进行归
:“长江后浪推前浪”这一术语,在社会科学上应用频繁,然而,在自然科学上尚鲜有论述,其物理本质是动量或能量传递的过程。长江水从上游流到河口的过程中,河道坡降、水流惯性起着重要
在大功率激电测深中引入了非常规电极排列(Non-conventional arrays)测量方式,该装置能在不降低勘探效果的前提下简化野外工作,同时可增大勘探深度,我们使用RES2D INV二维电
伴随着整个社会的快速发展,配电系统也产生了翻天覆地的改革和发展,在未来的社会发展中配电自动化系统将更加普遍,配电运维一体化建设是新的发展趋势。随着我国科学技术的发
以精神分析、来访者中心疗法、认知行为疗法这三大当代主流心理治疗流派为对象,分析了其哲学基础,并对这三大流派的临床应用效果作出评价。从本体论和认识论的角度,对各流派
高中通用技术课程的设立,旨在使学生理解技术及其性质,经历一般的技术设计过程,并在劳动与技术学习的基础上,形成结构较为完整的技术素养。基本完成新课标下对学生要求的观察能力
目的通过检测S100B蛋白、脑源性神经营养因子(BDNF)、胰岛素样生长因子-1(IGF-1)在癫痫婴儿血清中的水平,探讨其与婴儿癫痫发作的相关性。方法选取2012年1月至2016年12月收治
<正>风格即人。从表现内容到艺术形式,沈从文乡土小说的文体风格是鲜明而独特的。他小说的特异性,也使作为艺术家的沈从文从现代作家群体中凸现出来,表现出独树一帜的审美风
通过调查获得580份有效问卷,对这580份问卷进行了探索性因子分析,验证了知识共享行为调查量表的信度,在此基础上实证分析了知识共享行为及其各个维度在人口统计变量上的差异。研