基于MapReduce编程模型的航空日志分析研究

来源 :成都理工大学 | 被引量 : 14次 | 上传用户:lostwing56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着商业和互联网的高速发展,其大型商业系统和业务系统也随之呈现快速发展的趋势。航空公司的自助值机系统伴随着航空业务的高速发展而得到了广泛的应用,每天使用自助值机系统办理乘机服务的旅客大量增加,随着业务处理的复杂化和用户数量的规模化,系统每天都产生海量的日志文件。这些日志文件往往包含了宝贵的客户数据,通过对日志数据文件的分析可以将潜在的客户数据转变成客户价值。然而传统的单机处理方式分析大规模日志数据已经越来越力不从心,因此分布式并行化日志分析方法的研究工作便至关重要。分布式计算平台Hadoop下的MapReduce编程模型由于拥有简单、易用、适用性强、处理数据规模大等优点,成为大规模日志分析的首要选择。Hadoop分布式计算平台主要由MapReduce编程模型和HDFS(分布式文件管理系统)组成,通过Hadoop可以轻松地组织计算机资源,搭建分布式计算平台,充分利用集群的计算和存储能力,完成对海量数据的分析处理工作。数据挖掘技术是从大量的、不完全的、有噪声的实际应用数据中,提取潜在有用的信息和知识的过程,是实现日志分析的理论基础和方法。本文在深入研究数据挖掘技术的基础上,从自助值机系统产生的日志文件的特点出发,提出了一套基于日志文件的数据预处理方法和适合分布式并行处理的分析方法。数据预处理方法通过对原始日志文件进行数据清理、集成、变换、规约等操作,调整分析数据格式和内容,从而有效地减小数据进行分布式处理的规模,提高日志分析的效率。分布式并行化处理方法则高效地完成对海量日志文件的分析处理工作,并从分析结果中得到有价值的客户数据和商业数据,为业务的制定和发展提供有力的支持。本文重点对分布式日志分析方法进行了研究。在深入研究日志分析处理方法、分布式并行计算技术的基础上,设计并实现了基于B/S框架和分布式处理平台Hadoop的日志分析系统。通过实验表明,在对大规模日志文件的分析处理上,该系统与传统的串行计算日志分析系统相比在分析效率上有显著的提升。本文开发的分布式日志分析系统,实现了日志分析处理的整个过程。用户通过FTP服务上传日志文件到服务器,通过选择相应的分析要素进行数据预处理。系统自动将经过预处理后的日志文件发送到分布式计算节点做分布式并行化分析处理,数据分析结果通过图表化的方式展示在系统页面上。用户还可导出分析结果数据到Excel表格并通过电子邮件发送给相关开发人员和业务人员,为航空公司制定新的业务提供决策依据。
其他文献
配电变压器作为配电环节的终端,由于使用数量的庞大,在整个电网投资中占有相当大的比例,因此选择合理的配电变压器容量,以期节省配电变压器投资成本并合理配置能源,具有重要的研究
缬草(Valeriana officinalis L.)系败酱科(Valerianace)缬草属(Valerian L.)植物,具有镇静安神、解痉止痛之功效,临床用于治疗心神不安、心悸失眠、癫狂、脏躁、跌打损伤等,
本文从对素养和媒体素养等核心概念的考察入手,从历史维度着力分析台湾媒体素养教育发展的背景,从宏观的视野对其进行政治经济学的考察。本文研究发现台湾媒体教育的局限,在
目的:通过研究后牙区咬合高点在切牙咬合升高程度的表现,探讨咬合高点与咬合升高的相关性,分析髁导斜度,高点高度,高点位置等因素对其影响,指导临床准确,快速调牙合。方法:常规
随着移动通信技术的高速发展,以手机为代表的无线通信产品从最初价格昂贵的奢侈品逐渐成为一种大众的消费品,无线终端市场需求的不断提高,无线终端研发制造业也是蓬勃而起,新
如何在当代环境中延续传统一直是建筑和景观设计领域关注的问题。笔者在浙江传统山地村落的考察中,发现了村落竖向营造对于当下环境建设有着极富启示性的借鉴意义。技术理论在
当今世界,一个国家的前途取决于教育,而教育的质量取决于教师,教师的生活状况和工作积极性很大程度上受到工资制度的影响。2008年12月国务院常务会议审议并原则通过《关于义
目的:Chemerin是一个在肝脏、脂肪高表达的肝脏/脂肪细胞因子,与脂肪细胞分化、肥胖及代谢综合征有关,chemerin的受体cmklr1是一种G蛋白偶联受体,chemerin可通过结合表达cmklr
雷电灾害是“联合国国际减灾十年”公布的最严重的十种自然灾害之一。尤其是随着经济社会的高速发展,为了适应和配合国民经济的发展,我国电网的覆盖面广,电压等级高,自动化程
本研究旨在确定兔皮肤病原真菌的种类,掌握该地区兔皮肤真菌病的流行特点;建立一种快速、准确的检测兔皮肤病原真菌的分子生物学方法;探明兔皮肤病原真菌的基本生物学特性,并筛选