论文部分内容阅读
现代社会随着科学技术不断地进步发展,互联网的不断普及,人们逐渐了解了云这个全新的定义。伴随着云时代的到来,大数据也同样进入了人们的视线。信息技术的长足进步,大数据的应用已涉及到了社会的各行各业。其中在地震勘探方面,为了满足社会的需求,地震勘探所产生的数据量也在大幅增长,海量数据的产生虽然很好地反映了社会对石油、天然气等资源的极大需求,但是大规模的数据的处理问题也给地震勘探行业带来严峻的挑战。地震勘探产生的海量数据所带来的问题是多方面的,包括存储、读取、冗余、抽取等。本文重点针对数据的存储与读取两个方面。在实际情况中,读取地震数据需要考虑用户的具体情况,满足用户的需求,这一般体现在读取数据的速度和效率方面,同时还需要考虑到地震数据本身的特点。本文针对这些方面设计了一种架构,采用分布和分级的策略。分布即对地震数据的分布式存储:把大量的地震数据分散到各个存储节点进行存储,同时通过一个主节点对这些数据节点进行管理;分级即数据的分级查询:从主节点到数据节点,分级地对所需要的数据进行查询,进而得到用户所需要的数据。本文在此架构的基础上,针对地震勘探数据本身的存储格式即SEG-Y格式,以该格式为基准,对地震数据的存储格式进行了改进,并与原SEG-Y进行对比,结果表明在一定程度上提高了效率。除此之外,本文基于此架构加入了两级索引结构,通过索引快速找出数据存储的位置并进行读取,保证了用户读取数据的需求。这是本文基于分布分级策略的相关实现细节,也是本文的创新之处所在。针对以上几个方面的研究,本文以目前比较流行的两种分布式文件系统Fast DFS和Hadoop DFS为载体,结合地震数据本身的特点以及对IO性能的需求,把前文提出的分布与分级式的策略融合进这两个分布式文件系统中,使其在地震数据的性能方面能发挥出应有的优势。然后在此基础上对文件的操作进行测试并与原有分布式文件系统进行性能对比,测试与对比结果表明,本文设计出的分布式文件系统在对地震勘探数据的处理是十分合适且高效的。由于本文设计出的系统对于地震数据的操作具有一定的优势,并且操作方便也更加人性化,所以在实际的地震勘探行业中的应用前景也是十分广泛的。