论文部分内容阅读
进入二十一世纪以来,以计算机技术、网络技术等为代表的新技术应用,深刻的改变了人类社会的方方面面,尤其是近年来,伴随着5G技术的应用、物联网技术的突飞猛进,万物互联、一切皆可数据化似乎正从梦想走向现实。目前,数据已经渗透到了每一个行业领域并成为重要的生产因素,数据规模也正以惊人的速度呈膨胀式的增长,大数据正成为这个时代最为显著的标签。大数据概念的提出,颠覆了我们对传统数据的认识,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革,大数据以及其相关技术的发展正在成为改变人类生产以及生活方式的重要基础。本文基于对大数据内涵的认识,就其技术体系进行一些探讨并分析其未来发展趋势,以期能够对相关研究提供一些参考与借鉴。
大数据的概念一经提出便受到了学界的广泛关注,但到目前为止,对于大数据还没有形成一个统一的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。维基百科則将大数据定义为:利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。中国科学院院士徐宗本则将大数据定义为:不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。从上述定义不难看出,大数据从不同角度、侧重点可以有不同的理解,但其本质核心是一种数据集,是相较于传统数据在获取、存储、分析处理等方面具有较大差异,需要特殊技术支撑的复杂数据集合。
大数据具有数据规模大、流动速度快、类型多样、低价值密度以及真实性等特征,这使得其与传统数据相较具有较大差异。计算机技术、数字化技术以及网络技术等的飞速发展以及大范围普及是大数据产生的基础条件,使得数据的产生脱离了对活动的依赖,从被动产生到主动产生再到自发性产生,数据的规模在此情况下得到了爆发性的增长。但大数据的战略意义或者说是价值体现并不在于对海量数据的掌握,而在于对这些数据的分析加工、处理能力,也就是说,大数据技术才是大数据从“死数据”变成“活资产”的关键。大数据的数据类型主要分为结构化数据、非结构化数据的半结构化数据,其中非结构化数据和半结构化数据是大数据的主要类型,也被称为异构数据。由于半结构化数据和非结构化数据无规则性结构、模式多样化,且在大数据海量数据规模中占比较大,为大数据的存储、分析、呈现带来巨大挑战。
大数据采集技术
大数据采集是指从终端设备、社交网络、企业管理系统以及其它互联网平台、系统等获取数据的过程。大数据采集的数据包括了从各种数据源如RFID、传感器、社交网络及移动互联网等采集的各种类型的结构化、半结构化及非结构化的海量数据。这些数据不但来源广泛,且数据类型多样、规模庞大、产生速度快,传统的数据采集方法基本无法胜任。大数据采集过程中主要挑战是并发数高,成千上万的用户在同一时间对系统进行访问和操作,无疑对其技术支撑提出了挑战。大数据采集的数据源不同,数据采集方法也有所不同。就目前来说,针对不同的数据源,采集方法大致有如下几种:一是数据库采集。传统的关系型数据库如MySQL和Oracle等可用大数据的采集,但其在处理超大规模和高并发的数据采集中显得有些力不从心。近年来,非关系型数据库如Redis、MongoDB和HBase等在大数据采集中的应用日益增多;二是系统日志采集。很多企业管理系统、商务平台每天都会产生大量的日志,这些日志是大数据中的一种重要数据类型。对于系统日志采集,目前使用最广泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;三是网络数据采集。网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。四是感知设备数据采集感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
大数据存储技术
大数据的存储与数据采集环节密切相关。一般情况下,当数据采集量在一定的量级范围内且仅需要响应简单的处理请求时,可将数据存储在轻型数据库内。大数据存储的轻型数据库包括了关系型数据库、非关系型数据库和一些新型数据库。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大数据存储的关系型数据库;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大数据存储的非关系型数据库;此外,Google的Spanner、Megastore、F1是具有代表性的大数据NewSQL数据库。
当轻型数据库难以满足大数据存储需要时,便需要采取大型分布式存储数据库或者分布式存储集群的方式,这类大数据存储技术也被称为大数据存储平台。目前典型的大数据存储平台包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。 大数据挖掘处理技术
大数据挖掘处理技术包括了数据预处理技术、非向量数据挖掘、分布式大数据挖掘算法和可扩展大数据挖掘算法。
大数据的特征使得在对其进行分析、挖掘的过程中,需要进行有效的预处理以及提高响应效率。目前,针对流式大数据的约简技术主要包括以下两种:一种是基于数据的技术,包括采样、卸载、梗概、数据概要结构、集成等技术,此类技术以流式数据的子集来代替整个原始数据或是以概括整个流式数据的方式来实现数据约简,提升响应效率;另一种是基于任务的技术,包括近似算法、滑动窗口技术以及输出粒度技术,此类技术的数据约简思想是对原始数据进行压缩表达,从而减少对整个数据流的计算规模。
由于大数据类型的多样性,数据挖掘仅假设数据为向量数据显然难以有效处理大量的非结构数据和半结构数据,因此,大数据算法必须要提升非向量数据挖掘能力。目前,频繁项挖掘、分类以及聚类等是非结构化数据挖掘算法的主要研究方向。
分布式大数据挖掘算法是基于大数据类型的多样性以及分布式存储方式的大量应用而提出一种数据挖掘技术。此类技术通过并行计算、将数据分布于云环境中的各个节点等方法实现对超大规模数据的频繁项挖掘,利用云服务及分布式框架技术有效解决分布式数据挖掘问题。
可扩展的大数据挖掘算法是基于大数据的高速性和规模的不断扩大,需要挖掘算法具有一定的可扩展性,也就是说,大数据挖掘算法需要在大数据规模不断扩大的情况下仍能够具备良好的快速挖掘请求响应能力。
目前,大数据已经成为了各行各业实现创新发展的重要路径选择。企业系统、社交网络、互联网平台以及机器系统的不断涌现,使得每天都会产生海量数据,大数据已经成为企业重要的一种新的资产类型。在大数据时代,科学研究将从以计算为中心向以数据为中心转变,大数据的发展不仅改变了科学思维,也必然会
引起企业以及政府、个人的思维方式的变革,数据思维将成为人类社会未来发展的重要思维方式。
大数据将深刻改变人类社会的生存方式。在信息技术高速发展的当下,物联网、传感技术、嵌入式技术、互联网、云计算技术等的广泛应用,深刻的改变了人类感知世界、管理信息的方式。大数据以及其技术发展不仅在商业方面展现出巨大的价值,同时在工业领域、医疗领域、农业领域、航空领域等不断渗透,基于对海量数据的收集、分析处理,为科学决策提供了前所未有的信息支撑,大数据的产生和有效分析,将成为人类生存方式的改变的重要力量。
(广西北海职业学院)
參考文献:
[1]彭宇,庞景月,刘大同,彭喜元.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015,29(04):469-482.
[2]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[3]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(06):957-972.
大数据内涵分析
大数据的概念一经提出便受到了学界的广泛关注,但到目前为止,对于大数据还没有形成一个统一的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。维基百科則将大数据定义为:利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。中国科学院院士徐宗本则将大数据定义为:不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。从上述定义不难看出,大数据从不同角度、侧重点可以有不同的理解,但其本质核心是一种数据集,是相较于传统数据在获取、存储、分析处理等方面具有较大差异,需要特殊技术支撑的复杂数据集合。
大数据具有数据规模大、流动速度快、类型多样、低价值密度以及真实性等特征,这使得其与传统数据相较具有较大差异。计算机技术、数字化技术以及网络技术等的飞速发展以及大范围普及是大数据产生的基础条件,使得数据的产生脱离了对活动的依赖,从被动产生到主动产生再到自发性产生,数据的规模在此情况下得到了爆发性的增长。但大数据的战略意义或者说是价值体现并不在于对海量数据的掌握,而在于对这些数据的分析加工、处理能力,也就是说,大数据技术才是大数据从“死数据”变成“活资产”的关键。大数据的数据类型主要分为结构化数据、非结构化数据的半结构化数据,其中非结构化数据和半结构化数据是大数据的主要类型,也被称为异构数据。由于半结构化数据和非结构化数据无规则性结构、模式多样化,且在大数据海量数据规模中占比较大,为大数据的存储、分析、呈现带来巨大挑战。
大数据技术体系
大数据采集技术
大数据采集是指从终端设备、社交网络、企业管理系统以及其它互联网平台、系统等获取数据的过程。大数据采集的数据包括了从各种数据源如RFID、传感器、社交网络及移动互联网等采集的各种类型的结构化、半结构化及非结构化的海量数据。这些数据不但来源广泛,且数据类型多样、规模庞大、产生速度快,传统的数据采集方法基本无法胜任。大数据采集过程中主要挑战是并发数高,成千上万的用户在同一时间对系统进行访问和操作,无疑对其技术支撑提出了挑战。大数据采集的数据源不同,数据采集方法也有所不同。就目前来说,针对不同的数据源,采集方法大致有如下几种:一是数据库采集。传统的关系型数据库如MySQL和Oracle等可用大数据的采集,但其在处理超大规模和高并发的数据采集中显得有些力不从心。近年来,非关系型数据库如Redis、MongoDB和HBase等在大数据采集中的应用日益增多;二是系统日志采集。很多企业管理系统、商务平台每天都会产生大量的日志,这些日志是大数据中的一种重要数据类型。对于系统日志采集,目前使用最广泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;三是网络数据采集。网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。四是感知设备数据采集感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
大数据存储技术
大数据的存储与数据采集环节密切相关。一般情况下,当数据采集量在一定的量级范围内且仅需要响应简单的处理请求时,可将数据存储在轻型数据库内。大数据存储的轻型数据库包括了关系型数据库、非关系型数据库和一些新型数据库。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大数据存储的关系型数据库;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大数据存储的非关系型数据库;此外,Google的Spanner、Megastore、F1是具有代表性的大数据NewSQL数据库。
当轻型数据库难以满足大数据存储需要时,便需要采取大型分布式存储数据库或者分布式存储集群的方式,这类大数据存储技术也被称为大数据存储平台。目前典型的大数据存储平台包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。 大数据挖掘处理技术
大数据挖掘处理技术包括了数据预处理技术、非向量数据挖掘、分布式大数据挖掘算法和可扩展大数据挖掘算法。
大数据的特征使得在对其进行分析、挖掘的过程中,需要进行有效的预处理以及提高响应效率。目前,针对流式大数据的约简技术主要包括以下两种:一种是基于数据的技术,包括采样、卸载、梗概、数据概要结构、集成等技术,此类技术以流式数据的子集来代替整个原始数据或是以概括整个流式数据的方式来实现数据约简,提升响应效率;另一种是基于任务的技术,包括近似算法、滑动窗口技术以及输出粒度技术,此类技术的数据约简思想是对原始数据进行压缩表达,从而减少对整个数据流的计算规模。
由于大数据类型的多样性,数据挖掘仅假设数据为向量数据显然难以有效处理大量的非结构数据和半结构数据,因此,大数据算法必须要提升非向量数据挖掘能力。目前,频繁项挖掘、分类以及聚类等是非结构化数据挖掘算法的主要研究方向。
分布式大数据挖掘算法是基于大数据类型的多样性以及分布式存储方式的大量应用而提出一种数据挖掘技术。此类技术通过并行计算、将数据分布于云环境中的各个节点等方法实现对超大规模数据的频繁项挖掘,利用云服务及分布式框架技术有效解决分布式数据挖掘问题。
可扩展的大数据挖掘算法是基于大数据的高速性和规模的不断扩大,需要挖掘算法具有一定的可扩展性,也就是说,大数据挖掘算法需要在大数据规模不断扩大的情况下仍能够具备良好的快速挖掘请求响应能力。
大数据发展趋势
目前,大数据已经成为了各行各业实现创新发展的重要路径选择。企业系统、社交网络、互联网平台以及机器系统的不断涌现,使得每天都会产生海量数据,大数据已经成为企业重要的一种新的资产类型。在大数据时代,科学研究将从以计算为中心向以数据为中心转变,大数据的发展不仅改变了科学思维,也必然会
引起企业以及政府、个人的思维方式的变革,数据思维将成为人类社会未来发展的重要思维方式。
大数据将深刻改变人类社会的生存方式。在信息技术高速发展的当下,物联网、传感技术、嵌入式技术、互联网、云计算技术等的广泛应用,深刻的改变了人类感知世界、管理信息的方式。大数据以及其技术发展不仅在商业方面展现出巨大的价值,同时在工业领域、医疗领域、农业领域、航空领域等不断渗透,基于对海量数据的收集、分析处理,为科学决策提供了前所未有的信息支撑,大数据的产生和有效分析,将成为人类生存方式的改变的重要力量。
(广西北海职业学院)
參考文献:
[1]彭宇,庞景月,刘大同,彭喜元.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015,29(04):469-482.
[2]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[3]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(06):957-972.