论文部分内容阅读
随着科技发展,可获得的数据资源呈现爆炸式的增长,因此催生出“大数据”的概念.大数据的出现使得传统统计分析方法与计算工具受到挑战,这引起了学术界与业界的广泛关注.大数据的一个重要特征是数据量非常大,有的达到百万级甚至亿级,处理这样量级的数据所需要的计算时耗,内存要求,信息交互等都对单台计算机的性能提出了极高的要求.因此,为解决上述挑战,有三种主流框架式算法应运而生,分别是子抽样算法,在线更新算法以及“Divide and Conquer”算法.三种框架式算法各有优势,与之相关的文献也十分详实.其中,子抽样算法,顾名思义,即从总体中抽取一小部分子样本以代表总体原始样本,使之达到可以在一台计算机上快速计算的目的.然而,此种算法所造成的数据信息浪费也是必然的.在线更新算法,是针对于流数据的.当数据源源不断的产生,在线更新算法具有节约内存与快速计算的优势.而“Divide and Conquer”算法,是针对一般海量数据的.简单的“Divide and Conquer”算法通过将全部原始数据进行随机分组,分组后的样本在每一台子机器上完成相应的计算,然后将结果返回至一台公共的机器上去,最后在这一台公共的机器上将那些结果进行整合运算,得到最终的估计结果,其中一般常见的整合方式是平均.“Divide and Conquer”算法的主要优势是计算速度快,信息交互有效.而本论文的三部分主干内容正是在“Divide and Conquer”算法的框架下讨论的.随着数据量的增加,数据中蕴含的非线性,异质性等复杂特征日益显著,因此基于传统均值模型的相关分析工具已经难以满足大数据分析的需要,而Expectile回归模型作为一个刻画变量间相互关系的分布特征的经典模型,成为大家关注的重点.之所以选择Expectile模型而没有选择分位数回归模型,源于Expectile模型的优越性.其中Expectile模型最重要的特征就是对于尾部信息的敏感性,它不仅仅关注尾部概率也关注尾部取值.这对于那些专注于尾部信息建模的研究来讲更为适合,因为Expectile模型利用了更多的尾部信息.我们关注的第一个模型是线性Expectile模型.处理线性模型中的参数估计问题的常用方法是非对称最小二乘(Asymmetric Least Square,ALS)估计.ALS估计的实现手段是迭代加权最小二乘算法.由于整个估计过程是涉及迭代运算,那么直接使用“Divide and Conquer”算法显然是行不通的.所以本文提出的方法是在每一台子机器上完成ALS估计,然后将估计结果返回至公共的机器上去,接下来的重点就在于如何将这些结果进行整合,以得到一个有效的整合估计量.根据每台子机器上得到的ALS估计量是具有渐近正态性的事实,借鉴Meta分析中的置信分布法,我们建立了相应的联合置信密度函数,从而确定了最终的整合方法.有趣的是,最终的整合方法与其他文献中得到的形式类似,只是基于的假设不同.另外,由于数据量大,不可避免地会出现一些极端情况,如子机器的潜在中心与真实待估参数不一致,通过核函数加权的方法也进行了修正.本文关注的第二个重点仍然是在线性模型的框架下讨论的.由于每次“Divide and Conquer”算法只能计算某个Expectile水平下的参数估计量,而无法获得整条参数曲线的估计,所以我们提出了两步投影法.其主要步骤是将Expectile水平的支撑集均分为若干份,取相应的等分点.利用“Divide and Conquer”算法计算所有等分点上的参数估计值,然后再将得到的估计值作为响应变量,相应的Expectile水平作为解释变量,利用B样条得到每一维的曲线估计.由于真实Expectile曲线是随着Expectile水平的增大而增大的,所以为了防止在实践中出现下降的情况,我们建立了带约束条件的B样条估计问题,这可转成二次规划或线性规划问题去处理.本文关注的第三个重点是变系数Expectile模型.借助核函数将变系数Expectile模型的参数估计问题转变为一般形式的ALS估计量.但由于经典的窗宽选择方法-交叉验证法中涉及多次迭代以及对原始数据的重复分组使用,再加上ALS估计量涉及的迭代加权最小二乘算法,所以整个过程非常耗时且繁琐.我们利用总结性统计量的概念,调整了“Divide and Conquer”算法中的分组方法,再结合模型特征建立了合适的总结性统计量,使其最大限度地包含在每一台子机器上的原始样本中的绝大多数信息,大大简化了计算过程,同时保证了有效的信息交互.为了增加本文所提方法的实用性,针对流数据的相应总结性统计量算法也被建立.本文涉及到的三个主干部分均是在Expectile模型下的大数据参数估计问题.相应的渐近性质以及数值模拟均显示我们所提出的估计方法具有不可比拟的优越性.