论文部分内容阅读
回归分析是一种十分常见的数据分析方法,通过观测数据确定变量间的相互关系。传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的。基于置信度可以形成置信区间,一定程度弥补了预测值为单点的不足,但将点数据作为研究对象,以点带表某范围内的所有数据,往往存在信息丢失的问题。区间回归分析是一种以区间数为研究对象的数据分析方法。区间数能反映出数据的变动范围,更符合现实情况。区间型符号数据是区间数的一种,通过“数据打包”形成,因此除具有区间端点信息外,还具有区间内部散点信息。 本文基于区间数有无散点,进行了分类研究。当区间数散点未知时,可以利用的信息包括区间端点、中点、半径等。当前针对特殊值的研究已取得许多成果,其中一类是以区间中点、半径来表示一个区间数的,包括中点半径法、约束中点半径法、模型M等。这些方法的不足在于,未考虑区间中点误差范围较大而区间半径相对较小的情况,本文通过添加约束条件,在中点半径法基础上加以改进。蒙特卡洛实验表明,新的约束中点半径法能在中点波动较大时,依然保证预测区间与观测区间有所重叠。最后将新的约束中点半径法应用于沪深300指数预测中。当区间数散点已知时,除了特殊值,还可以充分利用内部散点信息。现有的基于描述性统计量的回归模型(DSM)充分利用了内部散点信息,但预测时会出现区间左端点大于右端点的情况,为解决这一问题,本文对DSM模型进行改进,形成扩展的DSM模型(eDSM)。一方面对原模型增加了假设条件,为后续新的预测策略提供支持,并给出了求解公式的推导,另一方面对预测策略进行改进。预测时有两种策略,一是预测区间均值、均值到区间左右端点的距离,进而形成区间,一是预测内部散点,将散点“打包”成区间。在模型假设成立的情况下, OLS模型可用于系数估计,因而有两种系数估计方法。将系数估计方法、预测策略进行组合,共形成四种方法,通过蒙特卡洛模拟,将四种方法进行了对比,并与现有的DSM、约束中点半径法(CCRM)方法进行了比较,结果表明,在误差范围不变的情况下,当系数绝对值较大时,系数估计选用eDSM模型,预测采取预测散点的策略,效果最优,当系数绝对值较小时,系数估计选用eDSM模型,预测采取预测特殊值的策略,结果更为突出。最后将各对比方法应用于股指变动预测和淘宝店铺信用度预测中。