【摘 要】
:
大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多
【机 构】
:
美国耶鲁大学生物统计系,厦门大学数据挖掘研究中心,湖南大学金融与统计学院,厦门大学经济学院
论文部分内容阅读
大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下,L1Group Bridge、L1Group MCP、Composite MCP都表现良好,其中L1Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。
其他文献
<正>服饰是穿在人身上的文化和历史。今天,服饰对于人们不再仅仅是遮身暖体的需要,更是人们装饰美化自己的追求。从人们的服饰之中,能够看到不同的生活习俗与审美情趣,不同的
目的探讨阴道旁修补术治疗阴道前壁膨出的安全性和可行性.方法 20例子宫脱垂伴阴道前壁膨出患者在阴式子宫切除术同时施行阴道旁修补术,手术前后评价尿潴留、尿频、尿急和张
战略管理在现代企业的生存和发展中的作用越来越大,随着我国商业银行股份制改革的深入和今年年底金融市场开放的过渡期的结束,我国商业银行已经迎来了战略管理的新时代,在新
本文选用1990~2005年期间我国六类能源的消耗指标,从时序维度考察了我国有色金属行业产量变化与其能源消耗之间的长期均衡关系和相互作用机制。研究发现,有色金属工业的产量增
中小企业是我国现行和未来经济发展的重要增长点,同时,中小企业也面临很多困难和问题,融资难问题已成为制约其发展的瓶颈。文章以烟台为例,阐述了烟台市中小企业融资方式创新
建立了液相色谱串联质谱法测定动物源食品(猪肝、猪肾、猪肉、鳗鱼、蜂蜜、鸡蛋)中呋喃苯烯酸钠残留的检测方法。样品采用乙腈提取,正己烷萃取净化,并对液相色谱串联质谱分离
产后出血是产科常见的分娩期并发症,严重的出血常导致子宫切除甚至产妇死亡,宫缩乏国是最常见的原因之一.因此,如何防治宫缩乏力性产后出血是个很重要的课题.院自2004年1月以来
以下笔者将结合自身多年实践工作经验,并通过本文,首先分析通信光缆作为高速公路机电系统内数据、语音以及视频等信息的传输介质,它是高速公路信息的血脉,然后结合高速公路施
真菌性角膜炎是一种难治性感染性眼病.常见的致病菌株为曲霉菌、镰刀菌、念珠菌.农村多见,植物性损伤常为其诱因.目前尚无强有效的抗真菌药物,一旦发生真菌在角膜组织繁殖,蛋
整合技术的学科教学知识(TPACK)是信息时代教师必备的专业知识基础。在系统梳理和借鉴国内外已有研究成果基础上,对1036名大四师范生TPACK进行了问卷调查。明确了大四师范生T