基于正则化稀疏模型与Xgboost算法的股指预测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:heritage102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于股票市场受多种不确定性因素的综合影响,股指序列通常具有高度的非平稳性、非线性,准确地对其进行预测是一项具有挑战性的难题。早些年,研究者大多使用单一的金融时间序列模型如ARIMA模型、GARCH模型或单一的机器学习模型如神经网络模型、支持向量机模型对股指序列进行预测研究,虽在一定程度上能有效地把握其变动情况,但预测精度仍有待提高。近些年,部分研究者尝试在股指预测研究中扩充相关特征或利用各模型的优劣构建组合模型,以期望能更好地把握其变动趋势。为提高股指序列的预测精度,本文从构建更多有效特征和组合模型两个方向进行了努力。首先,本文以上证指数和深证成指为样本,从技术面分析的角度出发,对两支指数的历史交易数据进行了收集与整理;其次,基于历史交易数据构建了日交易数据指标和常见技术指标,并借助小波分析的多分辨率分析能力,以db4小波为小波基函数对日交易数据指标进行了3层极大重叠离散小波变换,以获得小波分解序列;而后,以日交易数据指标、技术指标、小波分解序列三类变量为候选特征变量,以下一日收盘价序列为目标变量,构建了本文所需的时序数据集,并对其进行了预处理;最后,分别将Lasso、SCAD、MCP三种正则化稀疏模型与Xgboost算法组合对两支指数进行预测,并根据模型在测试集上的预测表现确定最优预测模型,其中,Xgboost算法的参数优化采用网格搜索法,最优预测模型为Lasso-Xgboost模型。实证分析部分的结果表明:第一,三种正则化稀疏模型筛选出的变量均包含了日交易数据指标、常见技术指标、小波分解序列三类变量,说明我们构建的三类变量均包含了大量与股指变动有关的信息;第二,基于Lasso-Xgboost模型的变量重要性排序在前十的变量包含技术指标和小波分解序列,而不含日交易数据指标,说明对日交易数据指标所包含的信息进行提取所获得的技术指标和小波分解序列更能有效地反映股指序列的变动;第三,组合模型Lasso-Xgboost在上证指数和深证成指上有良好的预测表现,且其预测精度优于SCAD-Xgboost模型、MCP-Xgboost模型、BP神经网络模型、SVR模型、Xgboost模型、Lasso-BP模型和Lasso-SVR模型。
其他文献
本文主要研究非结构网格上求解二维双曲守恒律的中心间断伽辽金方法。中心间断伽辽金方法(central discontinuous Galerkin,CDG)结合了间断伽辽金(discontinuous Galerkin,DG
316不锈钢是具有面心立方结构晶格的典型的奥氏体不锈钢,因其强度高、耐高温、耐腐蚀等优异性能而广泛应用于诸多领域,但其抗疲劳性能不佳,限制了其在极端严苛工况下的应用。
现如今,音乐与人们的生活密切相关,无处不在。随着数字音乐的出现,在线音乐的发展越来越快,越来越多的用户选择在线收听音乐。这种发展状况不仅使得网络音乐用户的数量迅速增
镁合金板材基于自身比重小、比强度高的特点,在电子产品、汽车、航空航天、国防等领域的应用越来越广泛。但是受制于自身密排六方的晶体结构,板材在轧制过程中极易形成强基面
P2型层状氧化物正极材料由于其能量密度高、种类丰富、合成方法简单与环境污染小等优势,被认为是最具有发展前景的钠离子电池正极材料之一。然而,由于钠离子较大的离子半径与
随着P2P等类似软件的发展,网络服务商的角色和作用也发生了重要转变,信息链接和传输不需要再经过中央处理器,而是可直接实现“一对多”甚至“多对多”的传输。在这一过程中,
短文本的情感分析(Sentiment Analysis Of Short Texts),是指对富含情感的简短文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing,NLP)领域的一
GX160CrMoV12钢具有高硬度高耐磨性的特点,广泛应用于模具制造和机械制造领域。然而,GX160CrMoV12钢晶界上分布着粗大网状共晶碳化物,使钢的强度和韧性明显降低。因此,需要改
在石油化工行业中,裂解气等中含有C2高经济价值组分,常规分离方法都有着各自的现实瓶颈,吸收-吸附耦合分离法是近几年来一种新的分离技术,具有很广阔的前景和开发潜力,本文主
制造业是我国国民经济发展的命脉,在我国的经济增长和产业结构升级中扮演着重要的角色。改革开放以来,在人口红利与制度红利双重作用下,我国制造业快速发展,在全球的地位不断