论文部分内容阅读
固定内容的定义是不发生改变的信息,包括数字媒体(图像、音频、视频等)、法律和参考文档、医疗影像、电子邮件、银行票据、卫星云图等。固定内容是近年来全球数据爆炸的主要因素。据IDC最新报告显示,2006年全球创建的数字信息总量为161EB(1EB=10亿GB),到2010年将达到988EB。固定内容则占所有数字信息的95%和企业数据量的80%以上。
固定内容存储的需求与现状
与需要不断改变和更新的结构化数据不同,固定内容的价值源自真实性、长久性、大容量以及可在线获取性等几种特性的结合。如何对如此海量的固定内容信息进行高效地存储、归档、管理、检索和保护,无疑对网络存储系统提出了全新的要求。
● 可获取性:保证在任何时间、任何地点都能对固定内容信息快速、便捷地访问,并支持在海量内容中快速检索。
● 可靠性:系统必须能够在完整的信息生命周期内可靠地管理数据,并避免因设备更新而产生的数据遗失问题。
● 真实性:所存取的固定内容必须符合一定的规范或标准,并确保重要内容不被修改或删除。
● 持久性:能够持续对整个存储系统内的数据进行访问,时间通常为十年、二十年或更久。
● 扩展性:系统具有极强的可扩展能力,可以非常容易地扩容至PB级。
● 开放性:系统必须能够轻松地与现有设备和应用相集成,无论是文件系统还是备份磁带库。
● 可管理性:必须满足商业应用的连续性和灾难恢复需求;管理自动化程度尽可能高。
● 较低成本:初期的购置成本和今后长期的运营与扩容成本都必须是可承受的。
不幸的是,传统的存储体系构架都未能针对固定内容存储需求进行优化。磁带机和光盘库由于较差的性能、可管理性和长期保存的可靠性,使其在近线和在线应用上遭遇严重限制。专为交易型应用而设计的SAN存储系统的复杂性导致其管理和服务成本在扩容至10TB以上就令人难以承受。NAS较局限的扩展能力以及依然高昂的系统开支也无法满足固定内容存储要求的量入为出扩展模式。传统使用RAID 5做数据保护是远远不够的,一旦出现两个磁盘同时损坏,将带来数据永远丢失的风险。更重要的是,现在几乎全世界都在使用离散元数据仓库进行文件的查找和检索,而非传统的文件系统。这些数据库的成本、维护和扩容却又非常复杂。
内容寻址存储CAS应运而生
面对爆炸性增长的固定内容存储,新型的内容寻址存储(CAS)技术由此诞生。
通常的网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing),利用数据对象在某个物理位置的文件名来存取该对象。而内容寻址(Content Addressing)是CAS区别于其他网络存储技术的关键所在。当存储一个数据对象时,CAS系统根据所存储数据的二进制内容,按照特定算法计算出一个全球惟一的ID号(GUID)做为内容地址,或称作数字标签、数字指纹。访问该数据的请求必须通过提供相对应的内容地址来完成。
概念虽然简单,基于CAS技术开发出的新型存储系统却具有许多独特的优势。
● 无重复数据——由于每个内容或数据分段都被赋予一个惟一的ID,当有重复内容被存储时,因产生同样的ID将被系统识别,就避免了相同内容的重复存储。这不仅节省大量空间,提高存储效率,而且极大简化了数据管理。(IDC估计,3/4的数字信息是经复制的副本。)
● 确保数据完整性——近年来有关数据保留的法律法规越来越多(萨班斯法案、HIPAA等)且日趋苛刻。由于CAS存储数据的惟一性和不可更改性,而且可通过赋予数据保留时间等属性轻松实现WORM(只写一次,多次读取),使数据的真实性与完整性得到完全保护。事实上,法规遵从已成为CAS存储应用的最大的市场之一。
● PB级的扩展性——CAS系统通常采用独立节点冗余(RAIN)架构,使用多个标准化的服务器作为节点组成网格,通过CAS平台软件进行全局管理。由于没有传统存储中复杂的SAN或文件系统管理,也无LUN/RAID组划分或分配,这样的架构不仅具有自我管理和配置、自我康复的智能,而且便于按需无缝扩展至PB级别。
● 内容分类与查找—— 一些CAS系统可让用户定义内容对象的元数据,对数据进行分类,并通过集成第三方的搜索软件对海量数据(成千万甚至几亿个文件)进行搜索、查找,充分挖掘固定内容的价值。
● 有效降低成本——CAS系统通常用作近线归档存储,普遍采用SATA磁盘和标准化硬件以降低成本。无重复内容的特性节省了大量存储空间。而且智能化的自动管理使维护人员能较轻松地应付上百TB的数据,进一步降低CAS系统的总拥有成本。
综上所述,CAS技术降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度;同时利用模块化的硬件架构有效地管理存储资源,对用户和应用保持透明,使CAS存储系统全面满足固定内容的可获取性、真实性、长期性和可管理性的苛刻要求。
CAS厂商与产品
EMC于2002年在业界率先推出了CAS存储产品Centera,用于企业内容归档与管理、法规遵从、医疗影像等市场,获得巨大的成功。之后,惠普和一些创业公司如Archivas、Bycast和Permabit也纷纷推出了各自的CAS产品,并试图从功能、性能以及应用上建立一定的优势。
国内市场中,除了EMC Centera于2005年底正式进入外,谷数科技在2006年底推出了D-Mesh固定内容存储集群,成为第一家提供CAS存储的本土企业。D-Mesh在技术先进性、性能和可靠性方面都有显著的提升。而且,D-Mesh全球首创地将基于文本和内容的多媒体搜索引擎内嵌于分布式集群存储体系,帮助用户更方便、高效且可靠地管理爆炸式增长的固定内容信息。
固定内容存储的需求与现状
与需要不断改变和更新的结构化数据不同,固定内容的价值源自真实性、长久性、大容量以及可在线获取性等几种特性的结合。如何对如此海量的固定内容信息进行高效地存储、归档、管理、检索和保护,无疑对网络存储系统提出了全新的要求。
● 可获取性:保证在任何时间、任何地点都能对固定内容信息快速、便捷地访问,并支持在海量内容中快速检索。
● 可靠性:系统必须能够在完整的信息生命周期内可靠地管理数据,并避免因设备更新而产生的数据遗失问题。
● 真实性:所存取的固定内容必须符合一定的规范或标准,并确保重要内容不被修改或删除。
● 持久性:能够持续对整个存储系统内的数据进行访问,时间通常为十年、二十年或更久。
● 扩展性:系统具有极强的可扩展能力,可以非常容易地扩容至PB级。
● 开放性:系统必须能够轻松地与现有设备和应用相集成,无论是文件系统还是备份磁带库。
● 可管理性:必须满足商业应用的连续性和灾难恢复需求;管理自动化程度尽可能高。
● 较低成本:初期的购置成本和今后长期的运营与扩容成本都必须是可承受的。
不幸的是,传统的存储体系构架都未能针对固定内容存储需求进行优化。磁带机和光盘库由于较差的性能、可管理性和长期保存的可靠性,使其在近线和在线应用上遭遇严重限制。专为交易型应用而设计的SAN存储系统的复杂性导致其管理和服务成本在扩容至10TB以上就令人难以承受。NAS较局限的扩展能力以及依然高昂的系统开支也无法满足固定内容存储要求的量入为出扩展模式。传统使用RAID 5做数据保护是远远不够的,一旦出现两个磁盘同时损坏,将带来数据永远丢失的风险。更重要的是,现在几乎全世界都在使用离散元数据仓库进行文件的查找和检索,而非传统的文件系统。这些数据库的成本、维护和扩容却又非常复杂。
内容寻址存储CAS应运而生
面对爆炸性增长的固定内容存储,新型的内容寻址存储(CAS)技术由此诞生。
通常的网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing),利用数据对象在某个物理位置的文件名来存取该对象。而内容寻址(Content Addressing)是CAS区别于其他网络存储技术的关键所在。当存储一个数据对象时,CAS系统根据所存储数据的二进制内容,按照特定算法计算出一个全球惟一的ID号(GUID)做为内容地址,或称作数字标签、数字指纹。访问该数据的请求必须通过提供相对应的内容地址来完成。
概念虽然简单,基于CAS技术开发出的新型存储系统却具有许多独特的优势。
● 无重复数据——由于每个内容或数据分段都被赋予一个惟一的ID,当有重复内容被存储时,因产生同样的ID将被系统识别,就避免了相同内容的重复存储。这不仅节省大量空间,提高存储效率,而且极大简化了数据管理。(IDC估计,3/4的数字信息是经复制的副本。)
● 确保数据完整性——近年来有关数据保留的法律法规越来越多(萨班斯法案、HIPAA等)且日趋苛刻。由于CAS存储数据的惟一性和不可更改性,而且可通过赋予数据保留时间等属性轻松实现WORM(只写一次,多次读取),使数据的真实性与完整性得到完全保护。事实上,法规遵从已成为CAS存储应用的最大的市场之一。
● PB级的扩展性——CAS系统通常采用独立节点冗余(RAIN)架构,使用多个标准化的服务器作为节点组成网格,通过CAS平台软件进行全局管理。由于没有传统存储中复杂的SAN或文件系统管理,也无LUN/RAID组划分或分配,这样的架构不仅具有自我管理和配置、自我康复的智能,而且便于按需无缝扩展至PB级别。
● 内容分类与查找—— 一些CAS系统可让用户定义内容对象的元数据,对数据进行分类,并通过集成第三方的搜索软件对海量数据(成千万甚至几亿个文件)进行搜索、查找,充分挖掘固定内容的价值。
● 有效降低成本——CAS系统通常用作近线归档存储,普遍采用SATA磁盘和标准化硬件以降低成本。无重复内容的特性节省了大量存储空间。而且智能化的自动管理使维护人员能较轻松地应付上百TB的数据,进一步降低CAS系统的总拥有成本。
综上所述,CAS技术降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度;同时利用模块化的硬件架构有效地管理存储资源,对用户和应用保持透明,使CAS存储系统全面满足固定内容的可获取性、真实性、长期性和可管理性的苛刻要求。
CAS厂商与产品
EMC于2002年在业界率先推出了CAS存储产品Centera,用于企业内容归档与管理、法规遵从、医疗影像等市场,获得巨大的成功。之后,惠普和一些创业公司如Archivas、Bycast和Permabit也纷纷推出了各自的CAS产品,并试图从功能、性能以及应用上建立一定的优势。
国内市场中,除了EMC Centera于2005年底正式进入外,谷数科技在2006年底推出了D-Mesh固定内容存储集群,成为第一家提供CAS存储的本土企业。D-Mesh在技术先进性、性能和可靠性方面都有显著的提升。而且,D-Mesh全球首创地将基于文本和内容的多媒体搜索引擎内嵌于分布式集群存储体系,帮助用户更方便、高效且可靠地管理爆炸式增长的固定内容信息。