面向非结构化文本大数据预处理中间件系统的设计与实现

来源 :武汉理工大学 | 被引量 : 3次 | 上传用户:yanlingyanling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据统计,大数据时代通过互联网采集的数据中85%以上都是非结构化数据,它们有些来源于自动化生成,有些出自各大媒体的新闻报刊,有些来自各种社交软件。数据源的广泛使得原始数据往往包含许多噪声并具有动态的异构性。因此,数据预处理目的在于能根据挖掘算法要求,通过对数据进行清洗去噪、统一格式、向量化表示、筛选过滤等操作,从而实现数据的非结构化。然而,非结构化的文本预处理过程繁琐而耗时,往往占据数据挖掘整体工作量的60%以上。尤其在大数据时代背景下,企业战略性数据挖掘更讲求时效性,迫切需要提升数据预处理速度,缩短挖掘周期。故研发高性能的分布式数据预处理中间件,可为企业级数据挖掘提供很大程度上的便利。极速膨胀大数据要求数据预处理中件间系统需具备两项基本能力,一是能存储、管理PB级非结构化文本数据,二是可以快速完成海量大数据的预处理任务。本文在移动通信企业大数据分析的应用背景下,针对上述需求,主要研究了以下三个方面的内容:1.针对单机数据预处理工具在数据量激增后不能满足挖掘时效性的问题,通过研究分布式计算框架的逻辑设计、集群特性以及部分功能特点,并从文本预处理的需求角度,设计且实现了基于Hadoop的非结构化文本大数据预处理中间件的系统框架;2.针对传统关系型数据库不能有效存储大数据的问题,通过研究分布式数据库Hbase的结构特性、物理构架、键值模式、集群性能等技术特点,从数据检索效率、集群负载均衡等角度,设计了满足大规模非结构化数据存储的数据表结构,并实现了基于Hbase的数据管理系统;3.针对单机预处理程序并不能直接分布式化运行的问题,通过仔细对比Map Reduce和Spark两种分布式编程框架的优劣,既而深入研究四种常用文本预处理算法流程,依照Spark的运算处理逻辑,实现了这些算法在Spark平台上分布式化改进。最后,本文使用多个性能指标,在单机和分布式两种环境下对同一数据集进行多项预处理测试,证明本文提出的面向非结构化文本大数据预处理系统性能优秀,可以达到非结构化文本大数据预处理需求。
其他文献
为了在岩爆预测精确度和工程实用性之间寻找平衡点,提出基于信念网络的岩爆等级预测模型,综合考虑岩爆的发生机理和目前已有的判别依据,选取最大切向应力与岩石单轴抗压强度
在上世纪40年代至今的中国摄影艺术纷繁复杂的发展过程中,无论是形式、主题还是审美都发生了极大的变化,体现出极为多样的走势。摄影家们进行了各种的探索,产生了很多流派,我
预算,是公共财政管理的基础工具,在政府资本配置中起到非常关键的作用。预算管理关系到事业单位财政预算的编制、执行和绩效评价的整个流程,是事业单位财务内部控制制度的有
随着城市的迅速发展,机动车数量急剧增加,城市空气中污染物浓度也在急剧增加,尤其是O3呈现出的区域性污染。本文利用2017年的O3、NO2、CO和气象数据资料对京津冀、长江三角洲
<正>金盾出版社出版的《西瓜甜瓜良种引种指导》一书,由徐志红和王坚编著。该书对全国范围内210个西瓜良种、73个甜瓜良种、15个砧木良种做了较具体的介绍,并配有130个西瓜、
目的:观察中西医结合治疗偏头痛的效果。方法:选取114例偏头痛患者为观察对象,按随机数字表法将其分为对照组与研究组各57例,对照组予以盐酸氟桂利嗪胶囊治疗,研究组在对照组
目前,水泥稳定碎石是较为常见的一种半刚性路面的基层材料,但由于其固有的一些特性,导致其表面产生裂缝是不能完全避免的。文章首先对水泥稳定碎石基层裂缝的产生机理进行了
作为禅宗的代表人物,六祖慧能大师深受中国儒道思想的影响,其代表作《坛经》所蕴含的内在超越精神亦是中国哲学逻辑发展之必然。《坛经》之内在超越精神具体体现为不苛求修禅
厥证是以突然昏倒,不省人事,四肢逆冷为主要临床表现的一种病证.病情轻者,一般在短时间内苏醒,但病情重者,则昏厥时间较长,严重者甚至一厥不复而导致死亡[1].厥证之记载,始于
手术室是医院内主要治疗场所之一,具有建设成本高、工作任务重及医疗资源密集化等特点;而手术室护理工作效率已被证实直接影响到医院整体经济和社会效益。故在人力、物力资源