Bighive:一个针对时间维度优化的分布式结构化数据存储系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:szf_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“中国Web信息博物馆”(Web InfoMall),是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5年来已经积累超过25亿中国互联网上出现过的网页,数据量已经超过30TB。随着数据量的持续增长,现有的Infomall存储和服务系统已不能满足要求,使得其中的数据存储和访问变得越来越困难。   为解决这一问题,本文首先分析了Infomall数据特征及其访问特性。在数据上,InfoMall中网页历史数据规模庞大,具有空间和时间两个方面的维度,我们发现数据在这两个维度上无界增长,表现出高度的不平衡性。其次,在访问上,InfoMall中的所有请求都带有时间和空间两方面维度的约束。   本文工作通过具体分析Web InfoMall的数据和访问特点,针对访问性能优化而设计了一种带时间索引的数据存储格式TSFile,实验表明其对InfoMall数据存储和访问需求的有效性。在此基础上,我们设计并实现一个的分布式结构化数据存储系统Bighive,并评测验证了其可行性。不失一般性,本文所研究的针对时间维度优化的分布式结构化数据存储技术,不仅能处理好InfoMall中的数据,也能很好的作为一个通用的结构化数据存储系统。
其他文献
随着社会、经济的发展,人们认识问题的复杂性、不确定性持续增加,这就导致表征事物行为特征的数据往往不是一些确切的数,而是一些带有一定误差的取值范围,我们称之为区间数,
随着机器人研究的深入和机器人领域的拓展,许多恶劣、危险环境下的作业,都需要由作机器人完成。这些作业一般都比较复杂,由于受机器人技术水平的限制,目前机器人很难自主完成这些
软件成本估算领域经过四十余年的发展,涌现出一大批估算理论与方法,但都没有在现实环境中的软件企业中得到广泛应用,在项目早期进行软件成本估算仍旧是一件非常难的任务。由于估
社会网络分析(Social Network Analysis,SNA)是使用量化方法对社会网络进行分析,研究其中个体和网络特性的学科。近年来,随着Internet的发展,大量社会网络数据的出现,尤其是由网络行
逆向工程以其在产品设计和研发中的独特优势,得到了广泛的研究和应用。作为其中的两项关键技术,点云数据简化和曲面重建具有重要研究价值。如何有效地缩减点云数据的规模并在
ICRH(Ion Cyclotron Resonance Heating)天馈线远程控制与状态检测系统是EAST-ICRH控制子系统之一。基于FPGA的天馈线远程控制与状态检测系统实现解决了新型ICRH天线和传输系
射频识别(RFID)是一种利用无线射频的远距离通信方式实现的非接触式的自动识别技术,和其它识别系统相比较具有速度快、实时性强、采集准确性高等优点。随着技术的发展,RFID系
语音识别技术具有重要的理论价值和广阔的应用前景,近年来受到了人们的广泛重视。随着电子计算机的不断应用与发展以及人工智能的不断进步与完善,人们越来越希望让机器能够理解
近年来,关于分布式哈希表(DHT)的研究非常多,有通过模拟仿真、理论分析等方法的,也有从实际测量角度出发的。eMule中基于Kademlia算法的KAD网络是当前最大规模的DHT实现,任何时刻
随着计算机和互联网的飞速发展,互联网的信息量呈现爆炸式增长。信息量的增加既为人们的生活带来了便捷,也给人们提出了巨大的挑战。在海量的信息面前如何高效的获取信息以及如