论文部分内容阅读
伴随着互联网产业的迅猛发展,大数据的存储和处理问题受到越来越多的关注。云计算、云存储也就成了网络新时代的一个重要概念。非关系型数据库便是云存储的解决方案。HBase是Apache Hadoop下的一款非关系型数据库,是一个基于列存储的开源数据存储系统。由于在大数据存储方面展现出的良好性能,以及与Hadoop的良好结合,基于HBase的开发、应用、研究也就越来越流行。
由于HBase是基于内存和磁盘的存储系统,它会在内存中暂存数据并在后续处理过程中把数据写入文件系统,所以内存缓存的大小成了影响系统性能的一个重要因素。在深入研究非关系型数据库实现理论和持久化方案,认真分析了HBase的实现和可用性、持久性方案之后,本文重点提出并实现远程日志过程和空闲写策略两种新解决方案,改进HBase数据处理流程:
(1)远程日志过程以日志备份为基础确保数据可用性和持久性,通过推迟写操作过程中的写磁盘进程来提高系统写操作时间性能。
(2)以远程日志过程为基础详细给出了数据恢复过程保证数据可用性。
(3)空闲写策略的核心是当系统处于空闲状态时主动把内存中的数据写入磁盘,减少远程日志写操作过程中的被动写磁盘频率,提高系统时间性能。
通过实验证明,两种方案在HBase数据库上都切实可行:在确保数据可用性和持久性的前提下,当缓存不超过默认大小时,远程日志过程和空闲写策略都能够明显的提升写操作的时间性能,并且在不同的缓存大小时写操作都能获得稳定的性能。