洞察企业非结构化数据

来源 :计算机世界 | 被引量 : 0次 | 上传用户:leesy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在当今数字化时代,几乎所有企业都需要应对数据激增带来的巨大挑战。
  日前,全球信息管理解决方案厂商Veritas Technologies发布《数据基因指数》(Data GenomicsIndex)报告,首次在业界公开由企业数据组成的精确视图。
  为了进一步了解客户数据环境的真正结构,Veritas在2015年分析了来自众多客户非结构化数据环境的数百亿份文件及其属性。本次分析涵盖了8,000多种最常见的文件类型扩展名。因此,报告中的数据基本能够代表客户文件系统环境的数据构成。
  根据实时的企业数据视图表明,40%以上的企业文件在3年内处于无人问津的状态,这一调研发现将为企业降低运营成本创造新的机会。《数据基因指数》报告是评估且建立企业数据环境标杆的第一步,旨在提高企业应对数据量激增挑战的关注度和行动力。
  《数据基因指数》报告首次公开当今企业数据环境的精确洞察,同时企业可以将其作为对比标准。该调研所得出的洞察能够大力推动企业智能化运转,实现最大修复能力,从而获得最佳的商业回报。本次报告的重要发现包括:
  开发者文件主导,演示文稿文件已成为过去时
  《数据基因指数》报告揭示,过去七年中,数据的实际增长速度为每年平均增长39.2%,而相应的存储空间需求增长比创建单个文件增长快9%。
  图片、开发者文件和压缩文件大约占企业环境总容量的三分之一。从文件数量上来看,开发者文件占总量的20%。回顾过去10年的IT发展趋势,与其他文件类型相比,演示文稿文件的数量下降500%。可以说,演示文稿当道的时代已经过去。
  秋季成为存储旺季
  秋天是文件创建的旺季。文本文件的增长率尤为突出,高达91%;其次是地理和信息系统文件,增长率为89%;电子表格的增长率为48%。通过本次调研可以总结出,企业通常在夏季和秋季录制视频,并将录制内容保存在公司的磁盘中。在秋季,视频量会迅速增长68%。
  只有备份和文档文件会在秋冬季激增。在企业完成年度备份后,备份文件将激增756%。但图像文件的创建量明显减少,降幅达63%。此外,68%的视频都创建于夏秋两季,电子邮件(pst)的情况可预测性高,各季节间只有0.7%的标准偏差。
  在数据环境中,41%的数据长期无人问津
  根据规定或合规要求,数据通常在3年后会从“可能相关”变为“过期”状态。令人难以置信的是,在企业中,平均41%的企业数据已经过期,或者是连续3年没有任何用户对其进行过修改操作。
  面对海量的陈旧数据,以及在可以执行多个可行处理决策时,为信息管理“决策预算”的重点划分优先级,无疑能够帮助企业选择文件管理的入手点。陈旧数据和总数据中数量最多的文件类型中,传统“office”文件是企业巨大的负担。
  如果企业希望最大限度地节约存储空间成本,但又无法确定优先处理哪些文件类型,那么企业可以重点对以下五大类型文件进行处理,每一类型都能够帮助企业找回GB级的存储空间:虚拟机文件、安全文件、游戏文件、科技文件、地理位置信息系统文件。
  孤立数据成为企业的巨大负担
  由于职位变更或员工离职,数据将失去其所有者,成为孤立数据。由于职位变更、员工离职以及常用活动目录混乱等原因,企业很难追踪数居环境的传承关系;此外,追踪数据传承需要巨大的资金支持。企业对这类数据通常选择忽略,但它们却不断花销企业的成本。根据《数据基因指数》报告,孤立数据多为内容丰富的文件类型,例如视频、图片和演示文稿等。如果企业选择忽略这类数据,将会造成一定的潜在安全风险。孤立数据也占据大量的磁盘空间,超出所应占空间的200%。
  孤立数据会占据企业高额成本,一方面是因为其占据了过量的存储空间。即便孤立数据仅占文件总量的1.6%,但它占据的存储空间却达到了5.1%。不仅如此,大多数孤立数据是内容丰富的数据类型,这类数据所占据的空间都远远超正常比例,如图像文件超出正常存储空间的88%,而视频和演示文稿分别超出165%和229%。
  报告调查发现,企业人员流动趋势对存储环境具有一定的影响。孤立文件的大小是平均文件的222%。数据管理人员可能认为,文件越大,其内容越重要,因此在员工离职后倾向于继续保留这类密集文件。如果企业希望恢复更多存储空间,从孤立数据下手无疑是首选。
  小变动或极大影响企业存储成本
  如果能够洞察自身数据,企业可以明确划分优先区域,从而实现最大的回报。演示文稿、电子表格和文档等传统Office格式文件所占据的空间远远超出合理数值,这为企业造成不必要的成本负担。同时,视频和图片等视觉格式文件也是企业的另一负担。企业应该对此类文件实施归档、删除和迁移工作。以10PB为普通环境举例,开展一项专门处理过期演示文稿、文档、电子表格和文本文件的归档项目就能为企业每年节省大约200万美元的存储成本。
  Veritas公司首席技术官SteveVranyes表示:“客户一直向我们诉说困扰他们的两大挑战:数据的爆炸式增长,以及在新服务器和应用程序上所投入的有限的配置资源及预算。借助Veritas对关键元数据特征的独特洞察,我们可以精确地呈现一般数据环境的真实情况。这些洞察分析会帮助企业从容应对当今严峻增长态势下所发生的巨大变化。”
  《数据基因指数》是首个精确评估实际数据环境组成的研究报告,调研包括文件类型组成、平均使用期限,以及单个文件的大小等多方面。Veritas公司还启动了数据基因项目(Data GenomicsProject),为本次研究创造一个共同的讨论区和平台。该首创研究计划旨在帮助企业深入了解日常创建、存储和管理的非结构化数据的本质。首份《数据基因指数》报告便是此项计划的首个研究成果。数据基因项目(Data Genomics Project)将成为数据科学家、行业专家以及思想领导者的讨论社区,不断为信息管理提供丰富的数据基因图谱,同时将研究和讨论结果分享给全球的企业用户,帮助他们从容应对数据增长的难题。
其他文献
“软件定义”是个可以造成产业格局洗牌的契机,相对于软件厂商“扩地盘”,硬件厂商更多地是面临“生存的压力”,从这个角度而言,硬件厂商的动力更强。  斯坦福大学教授Nick McKeown为首的研究团队在2006年将SDN概念用于校园网试验后,大大小小的基础设施供应商中随即刮起了一股“软件定义”的旋风,这股风潮席卷了网络、存储、服务器,再到数据中心的IT基础架构。从高校走向市场,其背后是市场对新型IT
4月13日,西北地区最大的中兴能源新疆云计算数据中心集群项目在新疆呼图壁县开工奠基,项目总投资达到了200亿元,计划7年全部建成。其中一期工程投入超过40亿元,将于2015年建成2万平米国际标准的数据中心机房,主要为国家重要信息系统和互联网企业、金融行业的数据存储提供服务。到2020年项目全部完成后,超过10万平米的数据中心机房将是全国最大的云计算绿色数据中心,成为面向全国并辐射中亚8国的灾备服务
为强化云技术,落地云应用,彰显云价值,微软再次举办了微软Cloud OS第二届云创益大赛(以下简称“大赛”)。大赛于2013年12月5日至2014年3月27日在全国范围内举行。  为了给参赛团队提供一站式服务,使每支参赛团队都能提交出最优秀的作品,微软从实战角度出发,有效组织微软技术团队与参赛团队进行纵深式技术性研讨活动——Deep Dive Lab。2014年2月20日下午,位于中关村丹棱街的微
在趋于饱和的市场,“蚕食”此消彼长。在整个中国打印机市场负增长的情况下,富士施乐的出货量却实现了同比40%的增长。  受整体经济形势低迷的影响,从2015年第二季度起,中国打印机市场一直处于负增长中。据IDC报告显示,2015全年打印机新装机总数下降近9%,各主流打印机厂商新装机量均持续下滑。  打印机市场持续萎靡  近年来,随着移动设备的日益普及和企业办公无纸化的发展趋势,传统打印的需求量在逐年
2013版ISO27001(信息安全管理使用规则)于2013年10月1日正式发布,新版标准反映了与业务的融合、与全面风险管理的融合、与治理的融合,体现在新标准中对绩效的重视、对风险评估方法论的修改。这与IT治理的目标也高度一致。  新标准更关注业务  IT治理的驱动力意在从董事会等治理层面确立IT的价值和投资的决策机制,确保IT战略与业务战略的一致性,革新性地驱动业务的发展。信息安全管理新标准从风
在云计算的发展中,安全问题不仅是传统的安全技术,而是整个从底层设计和技术是可控的、标准化和可扩展的。  随着斯诺登等安全事件的出现,信息安全比以往更加重要。在我国,信息安全已经上升到国家战略的高度,尤其在一些关键领域,安全问题更是备受关注。  云计算就是这样一个从国家到地方、从政府机构到企业都积极部署或正在部署的关键领域,大量的信息被传输到公有云、私有云或混合云中,还有更多的系统和信息将要被云化。
新技术闪亮登场,势必会冲击旧技术。  “旧有存储系统是基于各自独立的专门存储架构而设计的,这些架构都经过了调整和改动,以满足特定的应用需求。”Coraid公司负责产品管理的高级主管Gokul Sathiacama说,“传统的存储架构效率低下,因为它们并不是为了横跨建筑物、城市区域或找到实际场地放置下一个存储阵列单元的任何地方而设计的。”因此,Coraid公司主张使用以太网作为承载数据存储流量的背板
乔布斯早在2010年的公司会议上就说过“没有人愿意使用Flash,全球已经开始步入H5时代”。  H5是第5代HTML的简称,所谓HTML是“超文本标记语言”的英文缩写。我们上网所看到的网页,多数都是由HTML写成的。浏览器通过解码HTML,就可以把网页内容显示出来,它也构成了互联网兴起的基础。  谷歌浏览器于2015年9月1日起不再自动播放Flash;亚马逊宣布旗下网络,包括Amazon.eom
兼有公有云和私有云服务优势的混合云将是大中型企业最为常见的IT部署方式。  今年2月,中国电信云计算分公司(以下简称中国电信云计算公司)宣布天翼混合云服务投入商用,将正式提供基于虚拟数据中心的混合云服务,包括专享云模式和共享云模式下的虚拟数据中心服务。这是中国云计算市场上首家提供基于虚拟数据中心的云服务,也是中国为数不多明确提出提供混合云服务的供应商。  混合云是一种有别于公有云和私有云的云类型。
随着云数据中心技术变革步伐明显加快,云数据中心所涉及的技术类型越来越多、越来越复杂,特别是物联网、大数据、移动、社交以及SDN/NFV等(这个名单还会越来越长)等技术的应用给数据中心带来了很大变化。  变化总是有风险的,而快速变化时风险更大,因为此时留给IT运维人员进行变更管理和变更技术检查的时间就更少了。实际上,随着云计算数据中心的不断演进,常见的风险也在发生变化,而常规的那些用来保护数据中心安