论文部分内容阅读
大数据时代的到来,使得空间数据正在以前所未有的速度增长,并呈现出多源、多尺度、多时相、全球覆盖和高分辨率特征,GIS在生活中的广泛应用,用户数量变得越来越庞大,空间实时检索与获取在不断增多,而空间数据作为GIS的“血液”,如何对其进行合理的存储管理才能满足GIS用户的需求值得进一步探索。云计算的发展使得Hadoop和MapReduce在处理空间大数据的并行存取与处理等问题上得到了充分的应用,特别适用于空间大数据的并行存取与处理,因此,针对空间数据数据量大、存在拓扑与语义关系、更新频繁等特点,需要利用Hadoop平台,对空间大数据设计一种合理的空间数据结构进行存储,并构建高效的索引。本文利用云计算平台Hadoop、分布式数据库HBase、分布式计算模型MapReduce研究空间大数据的存储索引机制,并以OSM空间数据为例,完成了以下3个方面的研究:(1)分析OSM空间数据的结构和特点,针对空间大数据在云计算环境下的管理需求,设计空间数据存储模型和增量数据组织方式。同时为保证地理要素几何完整性以及拓扑关系完整性,将HDFS现有的副本放置策略进行改进并研究适合空间数据的数据副本放置策略。(2)对于空间大数据,为解决其空间分布不均、保证空间数据的相邻性等问题,经对比分析常见的空间数据划分策略后,提出基于STR树的空间数据划分策略,同时为了提高空间数据的索引效率和分析性能,利用MapReduce技术进行并行划分。(3)分析传统空间索引机制的优缺点,对划分好的空间数据,根据地理实体要素的分布排序以自下而上的方式利用R-树进行局部索引的构建,然后再根据STR树构建全局索引,将局部索引与全局索引的信息分别存储在DataNode和NameNode上,以此来提高空间数据检索效率。最后,部署Hadoop分布式环境,以OSM数据为例进行测试分析,对比在数据量及集群节点个数不同的情况下空间数据的存储和查询性能,验证了分布式环境下空间数据的存储和索引都具有良好的性能,能够满足空间数据存储和检索的需求。