论文部分内容阅读
随着计算机技术的迅速发展,信息传播速度加快,数据规模急速扩大,传统的数据存储和计算工具已经无法满足日益增长的数据量需求。在此背景下,Google在分布式文件系统、MapReduce计算框架和分布式数据存储系统三个方面分别提出了创新性的理论,拉开了大数据时代的序幕。此后,大数据框架和工具层出不穷,有效缓解了数据量激增的问题。事件研究法是实证金融领域的一种研究方法,它借助数理计量方法来研究事件对标的资产是否产生影响。本文通过对事件研究法文献的调研,发现其研究过程存在事件收集困难、缺乏大数据存储能力和计算能力、实时性差以及缺乏一站式研究平台的问题。针对以上问题,本文创新地运用流式收集工具、大数据等技术,设计了一个数据全面、计算高效的实时事件研究系统,主要完成了以下工作:(1)完成了股票数据和公告事件数据的收集,基于Hadoop集群进行存储管理,并提供事件数据的查询功能。采集过程使用灵活的爬虫框架,通过中间件Flume和Morphline实现实时收集和解析,并有效地进行多元化存储,在Solr中建立索引,对外提供富文本检索。(2)在大数据计算框架下完成了事件研究法的计算过程,利用Spark编程模型的算子,对事件研究法的预测模型和检验模型进行了算法设计与实现,有效利用集群并行化计算方法,提高了数据的处理能力。(3)实现了一站式的事件研究平台的系统设计,获取事件后即可进行模型计算,有效弥补了事件获取和模型计算之间的衔接。通过数据采集层、数据存储层、数据处理层和用户层的分层设计,为用户提供多种数据和计算功能,让使用者能够从纷杂的数据准备工作和计算工作中抽身,更好地投入到事件研究法的具体研究和应用中去。