基于海量数据的文本分类算法的MapReduce实现研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yangzhouzhoudaojun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2008年以来,云计算在IT业被广泛关注。云计算被看作是分布式处理、并行处理以及网格计算发展的产物,其中云计算的关键是并发、分布,核心是海量数据处理。但是云计算只是一种方法模型,要想真正实现它的价值,除了硬件以外,还要有软件平台及能够在此平台上高效运行的分布式程序。海量数据处理的问题在数据挖掘领域经常遇见,许多传统挖掘算法存在如下瓶颈:只适合于小规模的数据量,如果当数据量增大时,它们将不再适用,效率方面将会受到很大影响。然而,云计算的出现恰好解决了这样的问题,它的优势就在于处理大规模数据,如果我们在云计算平台上能够实现相应的传统数据挖掘算法,那么上述的传统数据挖掘算法的瓶颈问题将会得到有效解决。而能否借助云计算平台切实解决传统数据挖掘算法的上述瓶颈,关键的问题还在于能否将相应的数据挖掘算法进行并行化实现。本文的贡献在于详细介绍了传统朴素贝叶斯算法的执行流程,指出了其存在的瓶颈问题,并提出了并行化的解决方案。然后详细介绍了 Hadoop平台上传统贝叶斯算法MapReduce化的实现方法,最后通过传统贝叶斯算法与MapReduce化贝叶斯算法处理数据实验的对比,证明了云计算平台上数据挖掘算法的并行化大大降低了大规模数据的处理时间,并且通过实验,分析了 MapReduce化贝叶斯程序的几个主要性能参数对作业运行时间的影响。本文在九个节点上搭建Hadoop集群,通过六种不同的实验方案执行传统贝叶斯程序和MapReduce化贝叶斯程序,然后分析作业运行结果。结果表明:1)MapReduce化贝叶斯算法与传统算法相比,具有处理大规模数据的能力;2)MapReduce化的贝叶斯算法具有较好的加速比;3)延迟时间、备份个数和内存缓冲区大小影响着MapReduce化贝叶斯程序的性能;4)单点故障对作业的运行时间产生较大影响。实验结果验证了本论文提出的MapReduce化的贝叶斯方案的可执行性和高效性。本论文的研究为贝叶斯分类算法的并行化提供了可行的MapReduce化方案。
其他文献
目前,多种的计算体系结构和编程语言使得企业所面临的IT系统更加复杂多变,形成了一个个“信息孤岛。传统的应用集成方案并没有给企业IT系统间的互操作性和规范性带来实质变化。
视频较其它的信息载体具有信息量大、方便实用等特点,在各个领域都得到了广泛应用。H.264作为最新的国际视频编码标准,它支持从低带宽、高误码率的无线移动视频通信到高码率、低
如今Web的主流化使得企业应用系统由封闭状态逐渐走向开放,企业应用面对的信息资源将越来越依赖于Web环境。基于J2EE的分布式应用系统作为企业应用开发的主流,所面临的一个重
网络的本质和它的最大特点在于资源的共享。网络发展的过程中由于带宽及处理能力等的限制,使得我们的沟通中出现了很多的中间环节,如中间服务器、门户网站、第三方信息(交易)
水情水调系统(System for Hydrologic Data and Reservoir Dispatching,简称HDRD)是一个集计算机及网络通讯技术、自动化硬件设备与接口、水库调度专业知识为一体的大规模集
电子政务是随着计算机技术和网络技术的快速发展而建立起来的。电子政务的目的是利用现代的信息技术实现政府办公网络化、自动化、无纸化,以提高政府部门的办公效率,打破政府各
随着社会的发展,人们的活动范围越来越大并且越来越不确定。这种移动性和不确定性给移动通信带来市场和挑战的同时,也为位置服务的开展和扩大带来了无限商机。鉴于对位置业务未
信息系统在现代社会已经深入到各行各业中,在各自的位置上发挥着重要的作用。随着网络技术的发展,使得基于网络的资源共享成为可能,几乎每一个大中型公司和许多小型的公司,都
周期模式主要是研究时序数据库中的循环特性,是时态数据挖掘的一个重要的研究方向。周期模式的挖掘具有广泛的应用前景,如:气候、每天的交通模式、股票交易的波动、网站的访
海油平台是为了开采石油、天然气等海底资源而建造的生产和生活所需的巨型海上钢铁结构物(装备)。海油平台的生产类型属于单件生产(小批量生产极少见),因此不同海油平台之间