大数据下Expectile模型的并行计算研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:dfsdfdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技发展,可获得的数据资源呈现爆炸式的增长,因此催生出“大数据”的概念.大数据的出现使得传统统计分析方法与计算工具受到挑战,这引起了学术界与业界的广泛关注.大数据的一个重要特征是数据量非常大,有的达到百万级甚至亿级,处理这样量级的数据所需要的计算时耗,内存要求,信息交互等都对单台计算机的性能提出了极高的要求.因此,为解决上述挑战,有三种主流框架式算法应运而生,分别是子抽样算法,在线更新算法以及“Divide and Conquer”算法.三种框架式算法各有优势,与之相关的文献也十分详实.其中,子抽样算法,顾名思义,即从总体中抽取一小部分子样本以代表总体原始样本,使之达到可以在一台计算机上快速计算的目的.然而,此种算法所造成的数据信息浪费也是必然的.在线更新算法,是针对于流数据的.当数据源源不断的产生,在线更新算法具有节约内存与快速计算的优势.而“Divide and Conquer”算法,是针对一般海量数据的.简单的“Divide and Conquer”算法通过将全部原始数据进行随机分组,分组后的样本在每一台子机器上完成相应的计算,然后将结果返回至一台公共的机器上去,最后在这一台公共的机器上将那些结果进行整合运算,得到最终的估计结果,其中一般常见的整合方式是平均.“Divide and Conquer”算法的主要优势是计算速度快,信息交互有效.而本论文的三部分主干内容正是在“Divide and Conquer”算法的框架下讨论的.随着数据量的增加,数据中蕴含的非线性,异质性等复杂特征日益显著,因此基于传统均值模型的相关分析工具已经难以满足大数据分析的需要,而Expectile回归模型作为一个刻画变量间相互关系的分布特征的经典模型,成为大家关注的重点.之所以选择Expectile模型而没有选择分位数回归模型,源于Expectile模型的优越性.其中Expectile模型最重要的特征就是对于尾部信息的敏感性,它不仅仅关注尾部概率也关注尾部取值.这对于那些专注于尾部信息建模的研究来讲更为适合,因为Expectile模型利用了更多的尾部信息.我们关注的第一个模型是线性Expectile模型.处理线性模型中的参数估计问题的常用方法是非对称最小二乘(Asymmetric Least Square,ALS)估计.ALS估计的实现手段是迭代加权最小二乘算法.由于整个估计过程是涉及迭代运算,那么直接使用“Divide and Conquer”算法显然是行不通的.所以本文提出的方法是在每一台子机器上完成ALS估计,然后将估计结果返回至公共的机器上去,接下来的重点就在于如何将这些结果进行整合,以得到一个有效的整合估计量.根据每台子机器上得到的ALS估计量是具有渐近正态性的事实,借鉴Meta分析中的置信分布法,我们建立了相应的联合置信密度函数,从而确定了最终的整合方法.有趣的是,最终的整合方法与其他文献中得到的形式类似,只是基于的假设不同.另外,由于数据量大,不可避免地会出现一些极端情况,如子机器的潜在中心与真实待估参数不一致,通过核函数加权的方法也进行了修正.本文关注的第二个重点仍然是在线性模型的框架下讨论的.由于每次“Divide and Conquer”算法只能计算某个Expectile水平下的参数估计量,而无法获得整条参数曲线的估计,所以我们提出了两步投影法.其主要步骤是将Expectile水平的支撑集均分为若干份,取相应的等分点.利用“Divide and Conquer”算法计算所有等分点上的参数估计值,然后再将得到的估计值作为响应变量,相应的Expectile水平作为解释变量,利用B样条得到每一维的曲线估计.由于真实Expectile曲线是随着Expectile水平的增大而增大的,所以为了防止在实践中出现下降的情况,我们建立了带约束条件的B样条估计问题,这可转成二次规划或线性规划问题去处理.本文关注的第三个重点是变系数Expectile模型.借助核函数将变系数Expectile模型的参数估计问题转变为一般形式的ALS估计量.但由于经典的窗宽选择方法-交叉验证法中涉及多次迭代以及对原始数据的重复分组使用,再加上ALS估计量涉及的迭代加权最小二乘算法,所以整个过程非常耗时且繁琐.我们利用总结性统计量的概念,调整了“Divide and Conquer”算法中的分组方法,再结合模型特征建立了合适的总结性统计量,使其最大限度地包含在每一台子机器上的原始样本中的绝大多数信息,大大简化了计算过程,同时保证了有效的信息交互.为了增加本文所提方法的实用性,针对流数据的相应总结性统计量算法也被建立.本文涉及到的三个主干部分均是在Expectile模型下的大数据参数估计问题.相应的渐近性质以及数值模拟均显示我们所提出的估计方法具有不可比拟的优越性.
其他文献
人工智能(artificial intelligence, AI)赋能医疗,通过提升临床诊疗效率和服务质量,缓解医疗卫生资源短缺和不均衡等问题[1-3]。医疗机构、科研院所和企业多方联合攻坚,希望借鉴AI在翻译、金融和安防等领域的成功经验,实现医疗领域的重大变革[1]。本文拟梳理医疗AI的发展历程,探讨目前存在的挑战及未来发展方向。1.医疗AI发展历程医疗AI从时间线上大致分为知识驱动和数据
磁场信息与人类的生活息息相关,磁场信息的准确测量对地球科学、航空航天、资源探测、生命科学、交通通讯、国防建设、地震预报等领域的探索有着重要意义。三轴磁通门磁力仪作为高精度矢量磁传感器,已在各个领域被广泛使用。然而,由于加工精度以及电子电路设计的限制等原因,三轴磁通门磁力仪存在自身误差,影响其测量精度的提升。因此,使用磁通门前需对其误差参数进行标定,修正其示数。对于标定磁通门磁力仪的传统方法,由于地
学位
基于翻转课堂实施过程中存在"学生中心"未能"真"达成的问题,以"中点四边形"为例开展了教学设计研究.依据翻转课堂教学模型,从微视频精准制作到教学过程设计,从教学软件的合理使用到探究活动的落实,探索了数学课程翻转课堂如何激发学生求知欲、培养学生学习自主性,"让学习真正发生".
人工智能(artificial intelligence,AI)的提出引发了医学领域的诸多技术创新,并彻底改变了传统医学模式。医学人工智能主要包括机器学习(machine learning, ML)、深度学习(deep learning,DL)、专家系统(expert systems, ES)、智能机器人(intelligent robots, IR)及医疗物联网(internet of medi
目的分析老年肺栓塞患者溶栓治疗前后CT肺动脉造影(CT pulmonary angiography, CTPA)及CT肺灌注成像(CT perfusion imaging, CTP)参数变化,探讨二者在老年肺栓塞溶栓治疗效果评估中的应用价值。方法老年肺栓塞患者45例,均应用重组组织型纤溶酶原激活剂+肝素行溶栓治疗。分别于溶栓治疗前及溶栓治疗后1个月行CT平扫及增强扫描,通过Vitrea工作站获得C
静脉血栓栓塞症(VTE)主要包括深静脉血栓形成和肺栓塞,VTE作为一种慢性疾病,造成了重大的全球疾病负担。美国胸科医师学会(ACCP)第九版VTE抗栓治疗指南(AT9)于2012年发布,并于2016年第一次更新。2021年10月ACCP正式发布了AT9的第二次更新,本次更新就17个VTE相关的临床问题提出了共计29条推荐意见,本文就本次指南更新所提出的推荐意见进行解读。
政治经济学批判是马克思哲学思想的轴心,正如德国学者伊林·费彻尔所言:“马克思的目的始终是‘政治经济学批判’,这既意味着对资本主义生产方式批判,又意味着对它在资产阶级国民经济学说中的理论反映进行批判。”20世纪下半叶的后马克思主义者鲍德里亚继承了马克思的真精,同样追求经济问题的政治和哲学的深刻追问。鲍德里亚政治经济学批判思想受他所处的历史背景的制约,这种影响主要反映在三个领域:第一,从经济领域来看,
随着科学技术的发展,不同种类的海量数据被收集和存储.在这些复杂的数据类型中,有一类数据以函数曲线形式呈现,我们称之为函数型数据.常用的处理函数型数据的模型为函数型线性回归模型,这一类模型通常假定各样本个体之间是相互独立的,然而在一些空间经济发展研究中,通常各个国家或是各个州之间存在地理邻近或是贸易往来.为更好地处理这种邻近的相关信息,我们采用自回归的方式,即将临近的响应变量作为其解释变量放在模型中