论文部分内容阅读
由于股票市场受多种不确定性因素的综合影响,股指序列通常具有高度的非平稳性、非线性,准确地对其进行预测是一项具有挑战性的难题。早些年,研究者大多使用单一的金融时间序列模型如ARIMA模型、GARCH模型或单一的机器学习模型如神经网络模型、支持向量机模型对股指序列进行预测研究,虽在一定程度上能有效地把握其变动情况,但预测精度仍有待提高。近些年,部分研究者尝试在股指预测研究中扩充相关特征或利用各模型的优劣构建组合模型,以期望能更好地把握其变动趋势。为提高股指序列的预测精度,本文从构建更多有效特征和组合模型两个方向进行了努力。首先,本文以上证指数和深证成指为样本,从技术面分析的角度出发,对两支指数的历史交易数据进行了收集与整理;其次,基于历史交易数据构建了日交易数据指标和常见技术指标,并借助小波分析的多分辨率分析能力,以db4小波为小波基函数对日交易数据指标进行了3层极大重叠离散小波变换,以获得小波分解序列;而后,以日交易数据指标、技术指标、小波分解序列三类变量为候选特征变量,以下一日收盘价序列为目标变量,构建了本文所需的时序数据集,并对其进行了预处理;最后,分别将Lasso、SCAD、MCP三种正则化稀疏模型与Xgboost算法组合对两支指数进行预测,并根据模型在测试集上的预测表现确定最优预测模型,其中,Xgboost算法的参数优化采用网格搜索法,最优预测模型为Lasso-Xgboost模型。实证分析部分的结果表明:第一,三种正则化稀疏模型筛选出的变量均包含了日交易数据指标、常见技术指标、小波分解序列三类变量,说明我们构建的三类变量均包含了大量与股指变动有关的信息;第二,基于Lasso-Xgboost模型的变量重要性排序在前十的变量包含技术指标和小波分解序列,而不含日交易数据指标,说明对日交易数据指标所包含的信息进行提取所获得的技术指标和小波分解序列更能有效地反映股指序列的变动;第三,组合模型Lasso-Xgboost在上证指数和深证成指上有良好的预测表现,且其预测精度优于SCAD-Xgboost模型、MCP-Xgboost模型、BP神经网络模型、SVR模型、Xgboost模型、Lasso-BP模型和Lasso-SVR模型。