论文部分内容阅读
近年来,生存分析方法与技术广泛应用于流行病学和临床医学,研究者们逐渐将其引入到人口统计学、保险精算学、经济学等领域,但这些方法在金融领域的应用还不算多,本文运用Cox比例风险回归模型,来研究股票交易数据,以沪深300指数的基本成分股为样本,意图找出影响股票生存期的重要因素,并比较Cox模型中的变量选择方法的优劣,以期找到更合适的方法来研究股票市场。首先,分协变量之间相互独立和协变量之间存在相关关系两种情形,进行数值模拟实验,探究在Cox比例风险回归模型基础上,Lasso方法和Elastic Net方法的变量选择效果,并验证Elastic Net方法的组效应性质,为针对沪深300指基本成分股股票数据的实证分析做准备。然后,运用国泰君安数据库收集每支股的30个财务指标,以2016年第一季度作为观测时间,并定义沪深300指数的股票生存期,得到每支股票在该季度的生存期和生存状态,整理出所需要的基本股票数据。通过分析2016年第一季度的股票研究数据,得出30个财务指标的相关系数,并进行协变量的描述性统计分析,了解协变量的基本数据特征。随后分别利用Cox逐步回归方法、Lasso方法和Elastic Net方法这三种方法进行实证分析,求解算法运用了坐标下降算法,并运用10折交叉验证方法寻找合适的参数值,从而得到影响股票生存期的重要协变量,并分析其影响作用的程度与方向。最后,比较这三种实证方法的优劣,总结三种方法选择出来的共同的重要协变量,发现Lasso变量选择方法和Elastic Net方法的变量选择效果比Cox逐步回归方法好,Lasso方法和Elastic Net方法选择的协变量比Cox逐步回归方法要精简,没有多余的变量。通过Cox逐步回归方法选择出的变量存在多重共线性,说明此方法不太适用于自变量之间存在相关关系的情况,而Lasso方法选择出来的变量没有相关关系,说明当自变量之间存在共线性时,该方法能较好地处理这种情况。Elastic Net方法具有一个显著的特征,即组效应性质,即能将具有相关关系甚至是强相关的协变量共同选入模型,而Lasso方法没有这种性质,它只能在具有相关关系的变量之间选出一个进入模型,不能同时将协变量选入。特别是当数据呈现高维度、小样本、强相关的特征时,Elastic Net方法更加优于Lasso方法。在拟合效果方面,Lasso方法和Elastic Net方法优于Cox逐步回归法,而Lasso方法的模型拟合效果最好。