【摘 要】
:
随着经济的发展,科技的进步,人类社会对数据的需求量越来越大,海量数据研究成为当前计算机领域的热点。大数据的处理和分析可应用Hadoop分布式系统,它可实现任务的并行化,提
论文部分内容阅读
随着经济的发展,科技的进步,人类社会对数据的需求量越来越大,海量数据研究成为当前计算机领域的热点。大数据的处理和分析可应用Hadoop分布式系统,它可实现任务的并行化,提高运行效率。大数据在用户和分布式系统之间的传输速率会影响整个执行任务的效率。海量数据分析平台是以云计算技术和数据挖掘技术为基础的应用平台,用户可以通过Web化界面进行大数据的分析、处理、挖掘和存储,它的底层环境为Hadoop o本课题以海量数据分析平台为背景,实现了通用的数据交换模块。数据交换模块主要实现了Hadoop的文件系统HDFS (Hadoop分布式文件系统)与本地文件系统、关系型数据库、URL之间的数据传输。本课题主要的工作有:1.对数据交换技术的背景和现状进行了分析,介绍了数据交换相关技术,包括Hadoop、分布式文件系统HDFS.并行计算框架MapReduce和数据库编程接口JDBC;探讨了数据交换的工具,包括Hadoop提供的数据交换接口、Sqoop工具和FTP服务,并针对不同的工具进行了数据传输性能的对比。2.对通用的数据交换模块的需求进行了分析,设计并实现了HDFS和不同数据源之间的数据交换功能,包括基于FTP服务的HDFS和本地文件系统之间的数据交换、HDFS和URL之间的数据交换以及基于DB接口、Sqoop工具和FTP服务三种方式,实现了HDFS和关系型数据库之间的数据交换。3.将数据交换模块集成到海量数据分析平台中,并进行了功能的验证。
其他文献
从成都旅游资源的实际情况出发,论述了成都旅游资源特征,并把成都旅游资源分为自然景观资源、人文景观资源、社会景观资源和模拟景观资源四大类别。
民众是否对周围的工业污染进行抗争、其策略如何,是污染问题是否能得到解决的重要环节。通过实地调查,以苏北东井村村民驱赶污染工厂的抗争为案例进行研究,发现村民先以拆烟
目的将检验科外包项目纳入LIS管理中,减少人工干预,提高管理水平。方法通过上传下载导入导出文件的方式,实现检验科和医学独立实验室之间的数据交换,设计相关模块完成数据校
生态位不仅渗透到现代生态学研究的诸多领域,而且日益广泛地应用于农业、工业、经济、教育、政治等领域,并促使教育生态位、产业生态位、发展生态位等一系列专业名词的产生,
目的 :探讨广东省双颌前突患者牙、颌以及软组织的特征。方法 :对 6 0例广东省双颌前突容患者的头影测量描图 ,将测量值与北京正常值相比较 ,总结广东省前突面型患者的特征
目的:探究肝癌介入术后患者应用护理干预对其并发症及生活质量的影响。方法:选取某院肿瘤科收治的肝癌介入术后患者62例,随机分为对照组和观察组。对照组27例均采取常规护理,观
重庆市的地学旅游资源极其丰富 ,可划分为岩石圈旅游资源等 4个大类、地质旅游资源等 1 1个基本类型、地层旅游景观等 1 8种景观和黔江县上白垩统正阳组剖面等 1 0 7个景区 (
在前人研究的基础上总结了天坑的景观特征,参考旅游资源评价的方法和标准建立了天坑景观评价的概念模型,并依据模型与天坑的特点构建评价指标体系,确立了评价因子与评价指标,
针对新时代财务管理面临的问题与对策展开研究。指出财务管理职能方面存在的不足,包括企业财务管理观念落后、运营资金管理不足、财务管理水平低、内控不严格、财务管理工作
<正>国内二甲苯产能分布中国二甲苯产能多集中在华东、华南、华北以及东北等地。华东、华南仍然为主要产区,两者占全国产能比重的48%。中化弘润新建PX装置如顺利投产,届时将