基于Hadoop集群的实时事件研究系统

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:gxblackjack
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅速发展,信息传播速度加快,数据规模急速扩大,传统的数据存储和计算工具已经无法满足日益增长的数据量需求。在此背景下,Google在分布式文件系统、MapReduce计算框架和分布式数据存储系统三个方面分别提出了创新性的理论,拉开了大数据时代的序幕。此后,大数据框架和工具层出不穷,有效缓解了数据量激增的问题。事件研究法是实证金融领域的一种研究方法,它借助数理计量方法来研究事件对标的资产是否产生影响。本文通过对事件研究法文献的调研,发现其研究过程存在事件收集困难、缺乏大数据存储能力和计算能力、实时性差以及缺乏一站式研究平台的问题。针对以上问题,本文创新地运用流式收集工具、大数据等技术,设计了一个数据全面、计算高效的实时事件研究系统,主要完成了以下工作:(1)完成了股票数据和公告事件数据的收集,基于Hadoop集群进行存储管理,并提供事件数据的查询功能。采集过程使用灵活的爬虫框架,通过中间件Flume和Morphline实现实时收集和解析,并有效地进行多元化存储,在Solr中建立索引,对外提供富文本检索。(2)在大数据计算框架下完成了事件研究法的计算过程,利用Spark编程模型的算子,对事件研究法的预测模型和检验模型进行了算法设计与实现,有效利用集群并行化计算方法,提高了数据的处理能力。(3)实现了一站式的事件研究平台的系统设计,获取事件后即可进行模型计算,有效弥补了事件获取和模型计算之间的衔接。通过数据采集层、数据存储层、数据处理层和用户层的分层设计,为用户提供多种数据和计算功能,让使用者能够从纷杂的数据准备工作和计算工作中抽身,更好地投入到事件研究法的具体研究和应用中去。
其他文献
<正>"药局得到社会认同的必要条件是:对国民来讲是好药局、同业者纷纷膜拜其经营、对社会有贡献,只有这样的药局今后才能生存下去。"日本处方药配药现在形成了每年8亿张处方
目的:探讨眼底病专科日间手术与常规住院手术患者的统一管理办法。方法:结合眼底病专科患者的特点,设立日间病房床位40张,住院病房床位30张,实施医护一体化,优化和改进工作流
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
班巴拉维石墨矿主要赋存于元古宙乌萨迦兰超群鲁匡古勒组特戈特罗段的含石墨片麻岩中,含矿岩系为石墨黑云斜长片麻岩,中—粗粒鳞片状变晶结构,片麻状构造,矿石类型为大鳞片晶
西方新闻界的社会责任理论是在自由主义新闻理论濒临衰败的当口应时而生的,它及时地批评和弥补了自由主义新闻理论的缺失。社会责任理论强调新闻自由是权利与义务的统一,既承
人口流入型地区的社会治理是当前中国社会治理的重点和难点,但以往的治理研究往往缺乏从这一角度聚焦来探讨。本文从社会治理的研究、人口流入型地区社会治理的研究脉络、人