论文部分内容阅读
“中国Web信息博物馆”(Web InfoMall),是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5年来已经积累超过25亿中国互联网上出现过的网页,数据量已经超过30TB。随着数据量的持续增长,现有的Infomall存储和服务系统已不能满足要求,使得其中的数据存储和访问变得越来越困难。
为解决这一问题,本文首先分析了Infomall数据特征及其访问特性。在数据上,InfoMall中网页历史数据规模庞大,具有空间和时间两个方面的维度,我们发现数据在这两个维度上无界增长,表现出高度的不平衡性。其次,在访问上,InfoMall中的所有请求都带有时间和空间两方面维度的约束。
本文工作通过具体分析Web InfoMall的数据和访问特点,针对访问性能优化而设计了一种带时间索引的数据存储格式TSFile,实验表明其对InfoMall数据存储和访问需求的有效性。在此基础上,我们设计并实现一个的分布式结构化数据存储系统Bighive,并评测验证了其可行性。不失一般性,本文所研究的针对时间维度优化的分布式结构化数据存储技术,不仅能处理好InfoMall中的数据,也能很好的作为一个通用的结构化数据存储系统。