论文部分内容阅读
利用Hadoop大数据平台,对数据的压缩比和压缩效率进行研究。首先,研究分析了数据的特点及进行数据压缩的必要性;然后使用Hadoop压缩接口实现了Gzip、Bzip2和LZO三种压缩算法的分布式压缩,大大提高了压缩效率。通过在Hadoop大数据平台下针对不同压缩算法进行数据压缩实验,得出大数据平台比传统压缩方法优势明显,而对于不同用途的数据应当选用不同的压缩算法。