大数据技术体系及发展趋势探析

来源 :商业文化 | 被引量 : 0次 | 上传用户:fronj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  进入二十一世纪以来,以计算机技术、网络技术等为代表的新技术应用,深刻的改变了人类社会的方方面面,尤其是近年来,伴随着5G技术的应用、物联网技术的突飞猛进,万物互联、一切皆可数据化似乎正从梦想走向现实。目前,数据已经渗透到了每一个行业领域并成为重要的生产因素,数据规模也正以惊人的速度呈膨胀式的增长,大数据正成为这个时代最为显著的标签。大数据概念的提出,颠覆了我们对传统数据的认识,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革,大数据以及其相关技术的发展正在成为改变人类生产以及生活方式的重要基础。本文基于对大数据内涵的认识,就其技术体系进行一些探讨并分析其未来发展趋势,以期能够对相关研究提供一些参考与借鉴。

大数据内涵分析


  大数据的概念一经提出便受到了学界的广泛关注,但到目前为止,对于大数据还没有形成一个统一的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。维基百科則将大数据定义为:利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。中国科学院院士徐宗本则将大数据定义为:不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。从上述定义不难看出,大数据从不同角度、侧重点可以有不同的理解,但其本质核心是一种数据集,是相较于传统数据在获取、存储、分析处理等方面具有较大差异,需要特殊技术支撑的复杂数据集合。
  大数据具有数据规模大、流动速度快、类型多样、低价值密度以及真实性等特征,这使得其与传统数据相较具有较大差异。计算机技术、数字化技术以及网络技术等的飞速发展以及大范围普及是大数据产生的基础条件,使得数据的产生脱离了对活动的依赖,从被动产生到主动产生再到自发性产生,数据的规模在此情况下得到了爆发性的增长。但大数据的战略意义或者说是价值体现并不在于对海量数据的掌握,而在于对这些数据的分析加工、处理能力,也就是说,大数据技术才是大数据从“死数据”变成“活资产”的关键。大数据的数据类型主要分为结构化数据、非结构化数据的半结构化数据,其中非结构化数据和半结构化数据是大数据的主要类型,也被称为异构数据。由于半结构化数据和非结构化数据无规则性结构、模式多样化,且在大数据海量数据规模中占比较大,为大数据的存储、分析、呈现带来巨大挑战。

大数据技术体系


  大数据采集技术
  大数据采集是指从终端设备、社交网络、企业管理系统以及其它互联网平台、系统等获取数据的过程。大数据采集的数据包括了从各种数据源如RFID、传感器、社交网络及移动互联网等采集的各种类型的结构化、半结构化及非结构化的海量数据。这些数据不但来源广泛,且数据类型多样、规模庞大、产生速度快,传统的数据采集方法基本无法胜任。大数据采集过程中主要挑战是并发数高,成千上万的用户在同一时间对系统进行访问和操作,无疑对其技术支撑提出了挑战。大数据采集的数据源不同,数据采集方法也有所不同。就目前来说,针对不同的数据源,采集方法大致有如下几种:一是数据库采集。传统的关系型数据库如MySQL和Oracle等可用大数据的采集,但其在处理超大规模和高并发的数据采集中显得有些力不从心。近年来,非关系型数据库如Redis、MongoDB和HBase等在大数据采集中的应用日益增多;二是系统日志采集。很多企业管理系统、商务平台每天都会产生大量的日志,这些日志是大数据中的一种重要数据类型。对于系统日志采集,目前使用最广泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;三是网络数据采集。网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。四是感知设备数据采集感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
  大数据存储技术
  大数据的存储与数据采集环节密切相关。一般情况下,当数据采集量在一定的量级范围内且仅需要响应简单的处理请求时,可将数据存储在轻型数据库内。大数据存储的轻型数据库包括了关系型数据库、非关系型数据库和一些新型数据库。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大数据存储的关系型数据库;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大数据存储的非关系型数据库;此外,Google的Spanner、Megastore、F1是具有代表性的大数据NewSQL数据库。
  当轻型数据库难以满足大数据存储需要时,便需要采取大型分布式存储数据库或者分布式存储集群的方式,这类大数据存储技术也被称为大数据存储平台。目前典型的大数据存储平台包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。   大数据挖掘处理技术
  大数据挖掘处理技术包括了数据预处理技术、非向量数据挖掘、分布式大数据挖掘算法和可扩展大数据挖掘算法。
  大数据的特征使得在对其进行分析、挖掘的过程中,需要进行有效的预处理以及提高响应效率。目前,针对流式大数据的约简技术主要包括以下两种:一种是基于数据的技术,包括采样、卸载、梗概、数据概要结构、集成等技术,此类技术以流式数据的子集来代替整个原始数据或是以概括整个流式数据的方式来实现数据约简,提升响应效率;另一种是基于任务的技术,包括近似算法、滑动窗口技术以及输出粒度技术,此类技术的数据约简思想是对原始数据进行压缩表达,从而减少对整个数据流的计算规模。
  由于大数据类型的多样性,数据挖掘仅假设数据为向量数据显然难以有效处理大量的非结构数据和半结构数据,因此,大数据算法必须要提升非向量数据挖掘能力。目前,频繁项挖掘、分类以及聚类等是非结构化数据挖掘算法的主要研究方向。
  分布式大数据挖掘算法是基于大数据类型的多样性以及分布式存储方式的大量应用而提出一种数据挖掘技术。此类技术通过并行计算、将数据分布于云环境中的各个节点等方法实现对超大规模数据的频繁项挖掘,利用云服务及分布式框架技术有效解决分布式数据挖掘问题。
  可扩展的大数据挖掘算法是基于大数据的高速性和规模的不断扩大,需要挖掘算法具有一定的可扩展性,也就是说,大数据挖掘算法需要在大数据规模不断扩大的情况下仍能够具备良好的快速挖掘请求响应能力。

大数据发展趋势


  目前,大数据已经成为了各行各业实现创新发展的重要路径选择。企业系统、社交网络、互联网平台以及机器系统的不断涌现,使得每天都会产生海量数据,大数据已经成为企业重要的一种新的资产类型。在大数据时代,科学研究将从以计算为中心向以数据为中心转变,大数据的发展不仅改变了科学思维,也必然会
  引起企业以及政府、个人的思维方式的变革,数据思维将成为人类社会未来发展的重要思维方式。
  大数据将深刻改变人类社会的生存方式。在信息技术高速发展的当下,物联网、传感技术、嵌入式技术、互联网、云计算技术等的广泛应用,深刻的改变了人类感知世界、管理信息的方式。大数据以及其技术发展不仅在商业方面展现出巨大的价值,同时在工业领域、医疗领域、农业领域、航空领域等不断渗透,基于对海量数据的收集、分析处理,为科学决策提供了前所未有的信息支撑,大数据的产生和有效分析,将成为人类生存方式的改变的重要力量。
  (广西北海职业学院)
  參考文献:
  [1]彭宇,庞景月,刘大同,彭喜元.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015,29(04):469-482.
  [2]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
  [3]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(06):957-972.
其他文献
BACKGROUND Special AT-rich sequence binding protein 2(SATB2)-associated syndrome(SAS;OMIM 612313)is an autosomal dominant disorder.Alterations in the SATB2 gene have been identified as causative.CASE SUMMARY We report a case of a 13-year-old Chinese boy w
It is shown that for laser technologies it was necessary to create a new branch of physics: Relaxed Optics (synthesis of methods of the physical optics, quantum electronics, physical chemistry, physics of irreversible phenomena in unitary system). It is a
跆拳道品势因其继承和发扬中国传统优秀文化以及其所赋予的内涵,在最近几年愈发得到社会大众的广泛关注,成为许多年轻人竞相讨论的热点。本文采用文献资料法,分析阐述跆拳道品势训练的内涵、特征、意义、竞技训练的区别。鉴于许多跆拳道初学者缺乏关于品势训练的一套系统的、完善的学习方法,提不起学习兴趣。因此本文重点提出自我练习法、模仿练习法、表象练习法等八种有效方法让广大跆拳道品势爱好者受益。
人力资源管理在整体社会的发展过程中是企业发展的重要因素,而我国现阶段的人力资源管理自身所拥有的招聘及培训体系在构建过程中仍然存在一定程度的现实问题、诸诸如人力资源的管理重要性无法得到有效的认知、基础管理工作技术欠缺,不重视员工培训,企业奖惩机制不完善,绩效评估不科学等问题。在此基础上,探讨了我国国有企业人力资源管理的现状,针对国有企业人力资源招聘及培训管理体系现状问题提出了相应的对策。现阶段国有企
十九大报告中指出,要发挥消费作为经济发展的首要动力的带动力。在过去的五年里,消费对我国经济增长的拉动发挥着持续的作用,连续三年成为拉动经济增长的首要动力。消费在稳步增长的同时,消费结构也在不断地发生变化,有着明显的升级趋势。  我国的汇率波动情况与我国经济发展紧密联系,消费作为拉动经济的三驾马车之一,同样与我国的汇率紧密联系,受到汇率波动的影响。人民币汇率从2005年起逐步进入汇制改革阶段,即不再
习近平总书记强调,要把立德树人的成效作为检验学校一切工作的根本标准,要把立德树人内化到大学建设和管理各领域、各方面、各环节,做到以树人为核心,以立德为根本。随着微信、腾讯QQ等新媒体在高校大学生中的普遍使用,为新媒体在高校思想政治教育中的网络育人体系建设提供了前提和基础。同时从第二课堂的角度出发,新媒体作为网络育人的载体,也能有力地回答高校思想政治工作关于高校培养什么样的人、如何培养人以及为谁培养
企业销售与收款内部控制重要性  提高企业抗风险能力  企业是以利润最大化为第一目标的,销售是保证该目标实现的根本手段,而通过销售与收款内部控制制度建立,可以让销售有目标、有计划,有效地减少赊销带来的负面影响,让应收货款尽快回笼,让企业时时刻刻拥有充足的资金,有效对冲各类风险,让企业持续健康发展[1]。  建立企业良好信誉  通过销售与收款的合理内控操作,既能让经銷商获得回报,又能通过销售统计途径获
新能源汽车具有较强的经济性优势,更环保、更智能化,符合未来的技术发展方向。2021年2月9日,根据中国汽车工业协会的数据可见,国内新能源汽车1月份完成的19.4万辆产量和17.9万辆的销量,同比增长均超过百分之二百。与之相应,我国二手车市场和二手车交易量持续繁荣,首批销售的新能源汽车开始逐步进入置换期,但新能源电动汽车存在充电难、续航里程短等原因导致其保值率过低、估值难诸多问题有待解决。二手纯电动
近年来,我国的电力基础建设的发展迅速,传统的电力物资在管理以及配送中存在较多的漏洞以及不足,随着电力物资智能化管理以及配送体系的不断完善,对于电力物资管理提出更高的要求。可以借助于现代化手段提升电力物资的智能化管理程度,以提高管理效率和配送速度。主要探讨了电力物资智能化管理及配送体系运用的框架性措施,希望给相关研究人员以借鉴和参考。
本文以近年来大火的直播行业为研究对象,将研究的视角对准户外直播。围绕户外直播发展现状及趋势展开探究。首先,对近年来我国户外直播发展总体情况进行了简单介绍;其次,对户外直播发展面临的困境进行了全面的分析;最后,深入探究了户外直播未来发展趋势及相应的保障性策略。