论文部分内容阅读
互联网的迅速发展,使得网络大数据成为企业和社会关注的新型战略资源,在大数据时代,使用大数据方法和技术进行宏观经济预测正受到学者和宏观经济决策者越来越多的关注。各式各样的网络数据隐藏着消费者的各种行为习惯,这些数据可以映射出经济发展状况和消费者心理预期,利用相关技术从中提取出所需信息是当今研究的一大热点。本文通过网络搜索数据的量化,预测消费者信心指数(CCI)来反映消费者信心状况,分析关键的影响因素,为消费者信心指数的编制和相关经济问题研究提供指导,具有实际意义。本文内容主要分为三个部分,第一部分,通过介绍消费者信心、消费者信息需求与行为,构建消费者信心与网络搜索行为关系的理论框架。并介绍网络数据源的选择,分析网络数据源在预测中的优势。第二部分,在此基础之上,结合国家统计局消费者信心指数的编制原理和相关文献设定初始关键词与词库,并引入关键词筛选方法。在关键词的数据处理上,本文基于全国范围内的2011年1月至2018年10月的消费者信心指数数据和百度搜索数据进行分析,通过相关文献初步筛选181个网络搜索关键词,并使用时差相关分析法与LASSO算法进行降维,得到用于预测的核心搜索关键词。第三部分,构建偏核最小二乘回归模型、决策树回归模型与随机森林回归模型并进行求解和比较。在对各预测模型的分析中,通过模型样本内和样本外的预测效果比较可知,随机森林预测模型的综合预测效果优于其它两类模型,综合得到的随机森林预测模型有助于改进消费者信心指数的预测精度。并且,随机森林输出的关键词重要性程度也有助于传统消费者信心编制的权重决策。本文采用当今大数据时代较为流行的机器学习预测算法,丰富了网络数据在经济预测中的应用。完善了消费者信心指数的预测体系,弥补传统数据发布的滞后性问题。分析了消费者信心的影响因素,为传统消费者信心指数编制中的权重问题提出修改意见,有助于提高编制精度。