论文部分内容阅读
随着信息技术的不断更新,各种高新的数据观测、监测设备广泛应用于海洋数据的采集,包括:卫星遥感、航空、气象气球,台站,浮标,船舶,以及水下传感器等。全方位、立体化的海洋监测系统的形成,为我国全面实现海洋信息化奠定了坚实的基础。由于海洋科学学科特征以及海洋数据获取手段的多源性导致了海洋数据具有海量性、多样性、实时性、空间性、敏感性、异构性等特征,并且海洋数据量急剧增加,海洋数据无疑成为大数据的典范。海量、复杂的海洋大数据在给信息化发展带来机遇的同时,也给数据的管理带了新的挑战。而海洋大数据的高效管理是实现海洋信息化的基石,是制约海洋信息化发展的瓶颈问题之一,因此,如何对复杂的、海量的海洋大数据进行高效的数据管理是目前亟需解决的问题。伴随着云计算的兴起和发展,云存储引起了业界的关注,其为大数据管理提供了新的理念和方法。云存储分为公有云、私有云和混合云三种类型,其具有容量大、成本低、高扩展性以及高可靠性等优势,为大数据的高效管理提供了有效的方法。云存储环境由成千上万个价格相对低廉的基础设施组成,为大规模的数据存储、数据计算提供了足够大的空间。海洋大数据具有区别于传统数据的显著特征(如海量性、多样性、实时性、空间性、敏感性、异构性等),并且海洋数据的特征不仅影响海洋大数据的高效管理,同时也影响着海洋大数据的应用。故此,兼顾考虑海洋大数据的典型特征下,本文提出了适合于海洋大数据存储的混合云存储模式,其主要内容如下:1.文章针对研究的背景与意义首先做了综述。其次综述了国内外云存储、数据布局与数据迁移的研究现状,并在此基础之上,分析了在大数据的管理方面尚且存在的问题。由于海洋大数据显著的特征,在混合云存储环境下海洋大数据的管理亟待解决的问题主要有:1)如何在混合云存储环境中对属性特征显著的海洋大数据进行合理的数据布局,减少后续数据应用过程中数据的传递与迁移;2)如何判断何时(When),哪个数据中心(Where),哪一部分(Which)数据进行迁移;3)在保证数据安全和数据响应速度的前提下,如何尽可能的降低数据管理的成本。2.对海洋大数据的显著特征做了详细阐述。根据海洋大数据的空间性特征以及海洋大数据应用特点,即在实际的应用过程中空间位置临近的数据对象被同时调用的概率较高。本文利用空间相关性理论,对海洋大数据进行相关性分析,根据数据之间的相关程度对海洋大数据进行布局。将相关性程度高的数据存储在同一或者临近的数据中心上,避免或减少数据中心之间数据的传递,从而降低了资源和时间的消耗,提高数据存储性能并降低了数据管理成本。3.针对混合云存储环境中的关键问题数据迁移,本文首先对该问题进行了形式化的描述,并对问题中所涉及的概念给出了较为准确的定义,进而提出了混合云存储中海洋大数据的迁移算法。在迁移算法中,将海洋数据的敏感度、数据访问频率,数据大小,数据时间长度等因素作为迁移因子,对影响数据迁移的因素进行了充分的权衡。迁移算法兼顾考虑了数据存储容量、海洋数据本身的属性特征和数据访问过程中的动态变化。4.最后,本文通过实验对所提出方法的正确性与有效性进行了验证。利用某海域的某一时间段的数据,通过ArcGIS中空间统计模块的分析,验证了在混合云存储环境中利用空间相关系数对数据进行布局的正确性。另外,本文通过模拟混合云存储环境,利用某信息中心多年来的实际存储数据状况,对传统的数据管理方法与本文提出的海洋大数据管理方法,在数据管理成本与数据响应速度两方面进行对比分析。实验验证了在混合云存储模式下大大降低了数据管理成本,同时,通过本文提出的迁移算法保证了数据的访问速度。本文的研究工作得到了国家自然科学基金项目(编号:61272098),科技部973项目(编号:2012CB316206)和上海市自然科学基金(13ZR1455800)的资助。