论文部分内容阅读
零售业曾经经历过三次快速的变革,这些重大的转变都为世界带来了社会生产和人们生活方式方面的改变。2018年对于零售业来说,注定是不平静的一年。这一年充满了机会境遇。计算机科学的发展把零售行业推到了风口,同时新零售颠覆了传统产业环节,提升了效率、降低了运营成本,都对传统零售行业带来较大冲击。因此,在大数据的环境下,传统零售业需要利用大数据技术,帮助其正确应对新零售所带来的冲击。大数据时代为其带来的影响也有好处,通过大数据和AI技术赋能,零售业可以实现更精细化、智能化的管理。因此传统的零售业应该开始重视数据所带来的信息。本文所用到的数据是关于沃尔玛商店45家门店99个部门的,时间从2010/2/5到2012/10/26的历史销售数据和一些其他信息。由于源数据中没有提供test数据集(也就是2012年10月份到2013年10月份)的真实值,所以在建模中不考虑test的数据,而是将train中的数据分出80%作为训练集,20%作为测试集建立模型。通过给定的数据集,我们是要由以周为单位的销售额的输入得到周销售额的输出,并从中分析出适用于该数据的最优模型。文中主要用到的模型为指数平滑模型、ARIMA模型、极端随机森林方法和XGBoost模型。建立的时间序列模型具体为(1)带有季节哑变量的时间序列线性模型;(2)STL分解+指数平滑模型;(3)STL分解+ARIMA模型;(4)带季节项的ARIMA模型。这里进行建模时,是将数据看作多组时间序列数据,在建模前需要对数据进行预处理,由于数据中的节假日是比较重要的信息,经过对数据中出现的节假日信息进行观察,找到重大节假日如超级碗、圣诞节等在每一年出现的规律。依据规律对要预测时期包含有重大节日日期的销售额预测进行调整。除了对节假日引起的销售额波动进行分析外,文中还利用了奇异值分解通过提取部门间的相关信息,忽略掉仅出现在单个部门的销售额波动,对数据进行降维去噪。此时维度的选择至关重要,经过多次的测试得出,当维数在10-15时效果最好。通过预测指标的对比可以看出,对上述模型的预测结果进行加权平均后得到的预测结果要好于单一模型,而单一模型中预测效果最好的是STL分解+指数平滑模型。在使用机器学习算法建立模型时,并不将数据看作时间序列处理,而是使用了 store数据集、feature数据集和train训练集合并后的数据,将商店的规模、是否存在节假日、温度等与销售相关的因素考虑进模型,用月份代替日期作为一个因子,进行极端随机森林算法和XGBoost算法建模。将这两种机器学习算法预测效果与加权平均后的时间序列模型对比发现,调参后的XGBoost在预测商店销售额时的结果最好。有文献曾提出对于沃尔玛的销售额数据,基于部门层建立模型进行预测,将数据进行适当转化后建立XGBoost模型与之对比,结果发现XGBoost算法的预测性能也优于之前文献的模型结果。通过对沃尔玛的销售数据进行数据挖掘处理,我们发现预测效果最好是XGBoost模型。另外如果对模型的参数进一步优化还能够得到更好的预测结果,同时还可以考虑XGBoost与其他算法相结合。相信随着未来对零售业销售额预测研究的深入,会有更好的算法适用于这类数据。这样不仅能够解决沃尔玛自身的供应周转问题,对国内的连锁超市也具有借鉴意义。