论文部分内容阅读
据统计,大数据时代通过互联网采集的数据中85%以上都是非结构化数据,它们有些来源于自动化生成,有些出自各大媒体的新闻报刊,有些来自各种社交软件。数据源的广泛使得原始数据往往包含许多噪声并具有动态的异构性。因此,数据预处理目的在于能根据挖掘算法要求,通过对数据进行清洗去噪、统一格式、向量化表示、筛选过滤等操作,从而实现数据的非结构化。然而,非结构化的文本预处理过程繁琐而耗时,往往占据数据挖掘整体工作量的60%以上。尤其在大数据时代背景下,企业战略性数据挖掘更讲求时效性,迫切需要提升数据预处理速度,缩短挖掘周期。故研发高性能的分布式数据预处理中间件,可为企业级数据挖掘提供很大程度上的便利。极速膨胀大数据要求数据预处理中件间系统需具备两项基本能力,一是能存储、管理PB级非结构化文本数据,二是可以快速完成海量大数据的预处理任务。本文在移动通信企业大数据分析的应用背景下,针对上述需求,主要研究了以下三个方面的内容:1.针对单机数据预处理工具在数据量激增后不能满足挖掘时效性的问题,通过研究分布式计算框架的逻辑设计、集群特性以及部分功能特点,并从文本预处理的需求角度,设计且实现了基于Hadoop的非结构化文本大数据预处理中间件的系统框架;2.针对传统关系型数据库不能有效存储大数据的问题,通过研究分布式数据库Hbase的结构特性、物理构架、键值模式、集群性能等技术特点,从数据检索效率、集群负载均衡等角度,设计了满足大规模非结构化数据存储的数据表结构,并实现了基于Hbase的数据管理系统;3.针对单机预处理程序并不能直接分布式化运行的问题,通过仔细对比Map Reduce和Spark两种分布式编程框架的优劣,既而深入研究四种常用文本预处理算法流程,依照Spark的运算处理逻辑,实现了这些算法在Spark平台上分布式化改进。最后,本文使用多个性能指标,在单机和分布式两种环境下对同一数据集进行多项预处理测试,证明本文提出的面向非结构化文本大数据预处理系统性能优秀,可以达到非结构化文本大数据预处理需求。