内容寻址存储:固定内容存储与保护的救星

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:baalzio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  固定内容的定义是不发生改变的信息,包括数字媒体(图像、音频、视频等)、法律和参考文档、医疗影像、电子邮件、银行票据、卫星云图等。固定内容是近年来全球数据爆炸的主要因素。据IDC最新报告显示,2006年全球创建的数字信息总量为161EB(1EB=10亿GB),到2010年将达到988EB。固定内容则占所有数字信息的95%和企业数据量的80%以上。
  
  固定内容存储的需求与现状
  
  与需要不断改变和更新的结构化数据不同,固定内容的价值源自真实性、长久性、大容量以及可在线获取性等几种特性的结合。如何对如此海量的固定内容信息进行高效地存储、归档、管理、检索和保护,无疑对网络存储系统提出了全新的要求。
  ● 可获取性:保证在任何时间、任何地点都能对固定内容信息快速、便捷地访问,并支持在海量内容中快速检索。
  ● 可靠性:系统必须能够在完整的信息生命周期内可靠地管理数据,并避免因设备更新而产生的数据遗失问题。
  ● 真实性:所存取的固定内容必须符合一定的规范或标准,并确保重要内容不被修改或删除。
  ● 持久性:能够持续对整个存储系统内的数据进行访问,时间通常为十年、二十年或更久。
  ● 扩展性:系统具有极强的可扩展能力,可以非常容易地扩容至PB级。
  ● 开放性:系统必须能够轻松地与现有设备和应用相集成,无论是文件系统还是备份磁带库。
  ● 可管理性:必须满足商业应用的连续性和灾难恢复需求;管理自动化程度尽可能高。
  ● 较低成本:初期的购置成本和今后长期的运营与扩容成本都必须是可承受的。
  不幸的是,传统的存储体系构架都未能针对固定内容存储需求进行优化。磁带机和光盘库由于较差的性能、可管理性和长期保存的可靠性,使其在近线和在线应用上遭遇严重限制。专为交易型应用而设计的SAN存储系统的复杂性导致其管理和服务成本在扩容至10TB以上就令人难以承受。NAS较局限的扩展能力以及依然高昂的系统开支也无法满足固定内容存储要求的量入为出扩展模式。传统使用RAID 5做数据保护是远远不够的,一旦出现两个磁盘同时损坏,将带来数据永远丢失的风险。更重要的是,现在几乎全世界都在使用离散元数据仓库进行文件的查找和检索,而非传统的文件系统。这些数据库的成本、维护和扩容却又非常复杂。
  
  内容寻址存储CAS应运而生
  
  面对爆炸性增长的固定内容存储,新型的内容寻址存储(CAS)技术由此诞生。
  通常的网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing),利用数据对象在某个物理位置的文件名来存取该对象。而内容寻址(Content Addressing)是CAS区别于其他网络存储技术的关键所在。当存储一个数据对象时,CAS系统根据所存储数据的二进制内容,按照特定算法计算出一个全球惟一的ID号(GUID)做为内容地址,或称作数字标签、数字指纹。访问该数据的请求必须通过提供相对应的内容地址来完成。
  概念虽然简单,基于CAS技术开发出的新型存储系统却具有许多独特的优势。
  ● 无重复数据——由于每个内容或数据分段都被赋予一个惟一的ID,当有重复内容被存储时,因产生同样的ID将被系统识别,就避免了相同内容的重复存储。这不仅节省大量空间,提高存储效率,而且极大简化了数据管理。(IDC估计,3/4的数字信息是经复制的副本。)
  ● 确保数据完整性——近年来有关数据保留的法律法规越来越多(萨班斯法案、HIPAA等)且日趋苛刻。由于CAS存储数据的惟一性和不可更改性,而且可通过赋予数据保留时间等属性轻松实现WORM(只写一次,多次读取),使数据的真实性与完整性得到完全保护。事实上,法规遵从已成为CAS存储应用的最大的市场之一。
  ● PB级的扩展性——CAS系统通常采用独立节点冗余(RAIN)架构,使用多个标准化的服务器作为节点组成网格,通过CAS平台软件进行全局管理。由于没有传统存储中复杂的SAN或文件系统管理,也无LUN/RAID组划分或分配,这样的架构不仅具有自我管理和配置、自我康复的智能,而且便于按需无缝扩展至PB级别。
  ● 内容分类与查找—— 一些CAS系统可让用户定义内容对象的元数据,对数据进行分类,并通过集成第三方的搜索软件对海量数据(成千万甚至几亿个文件)进行搜索、查找,充分挖掘固定内容的价值。
  ● 有效降低成本——CAS系统通常用作近线归档存储,普遍采用SATA磁盘和标准化硬件以降低成本。无重复内容的特性节省了大量存储空间。而且智能化的自动管理使维护人员能较轻松地应付上百TB的数据,进一步降低CAS系统的总拥有成本。
  综上所述,CAS技术降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度;同时利用模块化的硬件架构有效地管理存储资源,对用户和应用保持透明,使CAS存储系统全面满足固定内容的可获取性、真实性、长期性和可管理性的苛刻要求。
  CAS厂商与产品
  EMC于2002年在业界率先推出了CAS存储产品Centera,用于企业内容归档与管理、法规遵从、医疗影像等市场,获得巨大的成功。之后,惠普和一些创业公司如Archivas、Bycast和Permabit也纷纷推出了各自的CAS产品,并试图从功能、性能以及应用上建立一定的优势。
  国内市场中,除了EMC Centera于2005年底正式进入外,谷数科技在2006年底推出了D-Mesh固定内容存储集群,成为第一家提供CAS存储的本土企业。D-Mesh在技术先进性、性能和可靠性方面都有显著的提升。而且,D-Mesh全球首创地将基于文本和内容的多媒体搜索引擎内嵌于分布式集群存储体系,帮助用户更方便、高效且可靠地管理爆炸式增长的固定内容信息。
其他文献
在传统DIY市场的光存储产品市场份额逐渐达到饱和,如何提升产品性能与利润是摆在各厂商面前的一大难题。有数据表明,截至去年10月,三星刻录机产品取得了累计销量突破1000万台的成绩,为了保持在光存储领域的优势,三星近日发布了新品牌“容天”和2007年产品计划。在光存储领略率先试水双品牌战略的三星将如何理顺新“容天”与成熟品牌“金将军”之间的关系呢?  国内外光存储厂商在保证传统光存储产品技术和利润稳
尽管大家都亲切地称联想天骄i为小家伙,但它肩上的责任和意义却很重大。它是联想为北京奥运会倒计时一周年推出的首款纪念PC,更是联想为2008年北京奥运会献上的一份厚礼。  8月7日,距离正式召开北京奥运会还有一年零一天,在美丽的“帆船之都”青岛,联想集团与国家体育总局水上运动管理中心正式签约,同时成为国家体育总局水上运动管理中心科技合作伙伴及皮划艇、赛艇、帆船帆板、激流回旋4支国家队的合作伙伴。  
关键字:数字城市/信息服务     “数字城市”、“数字奥运”意味着有序,意味着准确,更意味着精细和规范。所以,关注北京的信息系统建设进程,关注基础设施建设,也更要关注信息服务的细节。  因为差错,才去关注细节  北京西客站的地下二层大厅,设立了两个“信息岛”,推行“人 机”的服务模式。笔者亲自尝试了“信息岛”的服务效果。柜台姑娘十分敏捷地输入问题,打印出指路“城际通路书”。不出所料,我用已知的差
开栏语:作为我国计算机事业先行者的太极计算机股份有限公司,已经走过整整20个春秋。从本期开始,我们将向读者展现20年来太极公司的发展历程。    1987年在使命中诞生    20世纪80年代中期,我国计算机工业步入发展期。1986年,原电子工业部提出以“两微一小”建立核心产业,重点搞好微小型机产业。1987年,太极计算机公司在原电子工业部第十五研究所的基础上宣告成立。  太极的母体,原电子工业部
持续不断的技术创新带来的企业运营效率的提高和商务沟通手段的日益改善,给现在的中小企业既带来了机遇,也带来了挑战。快速变化的市场形态、兼并、竞争以及客户期望值的不断提升,正在影响着今天各种规模企业的发展。  值得庆幸的是,我们的机遇也在不断发展,而且我们相信这个快速变化的市场对中小企业来说实际上十分有利。今天的中小企业接触新市场、新供应商和新客户的机会比以往任何时候都要多,它们面临的是一个真正全球化
在历届中国信息化推进大会中,内容丰富、形式精彩的展览都是必不可少的环节,也是每届大会的亮点。紧紧围绕“信息化促进经济结构调整和增长方式转变”的主题,2007中国信息化推进大会举办展览展示活动,展出信息技术在促进经济结构调整和增长方式转变工作中的应用案例,以及自主创新的信息技术和工具,为相关行业的信息化建设提供了有益的参考和借鉴。  本届大会展览面积达到450余平方米,参展企业涉及电力、通信、软件、
性能功耗比大获提升    英特尔(中国)有限公司企业解决方案部高端企业客户中国大区经理王克认为,应围绕应用构建计算环境  作为上游业务,勘探在石油行业企业战略中占据重要地位,其费用支出不是小数。中国石油化工股份有限公司2006年年度报告显示,公司勘探费用(包括干井成本)为79.83亿元。据了解,2007年中石化公司将支出531亿元用于勘探及开采板块。  在石油企业勘探所需要的费用中,钻井的费用是非
小额支付系统对百姓来说绝对是个好事儿。但是,从2006年6月中国人民银行成功建成小额支付系统至今,老百姓还没真正感受到它带来的方便。有关小额支付系统的美好应用依旧仅仅停留在看上去很美的“畅想”阶段。这是为什么?  到底是客观上的障碍,还是主观上的抵触?本报记者曾走访多家银行的技术部负责人,寻求各银行对小额支付的推广之道。    主观上:银行利益暗战    银行内部人士说,使用小额支付系统之后,银行
数据是企业最重要的资产,数据中心作为企业网络的中枢系统汇聚了最昂贵的服务器和存储及网络设备,担负了越来越重要的任务。在企业的IT基础架构中,数据中心是数据及业务应用的总控中心。数据中心的建设要面向企业业务的发展,并为企业提供全面的业务支撑。这种支撑涵盖了客户、企业业务、企业数据和决策支持等层面。我们正处在一个信息爆炸的时代,数据的存储量用KB、MB、GB甚至TB来计算,在将来,人们所谈论的将是PB
关键字:ERP/微软/IBM     4月9日,微软签约上海宝信,后者成为微软在中国的第6个全球战略合作伙伴。微软在中国推进的合作计划让国内软件厂商感受到了压力。  而微软商务管理解决方案的成型更让这种压力变成威胁,竞争与合作都摆在面前,国内的软件厂商如何应对?  最近微软的全球战略合作伙伴计划进展迅速,虽然大部分是技术、人才等领域的合作,但对国内企业潜在的威胁不容忽视。“本土厂商迟早要面对IBM