基于MapReduce的期望最大化算法研究和实现

被引量 : 0次 | 上传用户：mmoxx

【摘要】

：

随着领域中的数据量高速的增长，传统计算方法在处理大规模数据集运算时出现了性能上的瓶颈。伴随着“云计算”时代的到来，一种简单的并行计算模型MapReduce进入了人们的视线，它

【作者】

：

姜治宇

【发表日期】

：

2012年期

【关键词】

：

期望最大化算法 Hadoop项目 MapReduce模型隐马尔科夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着领域中的数据量高速的增长，传统计算方法在处理大规模数据集运算时出现了性能上的瓶颈。伴随着“云计算”时代的到来，一种简单的并行计算模型MapReduce进入了人们的视线，它将实现和业务逻辑分离，只需要简单地调用接口就可以实现分布式的计算。作为一种解决方案，MapReduce有效的解决了传统算法处理大规模数据集运算的性能瓶颈。期望最大化算法作为机器学习中的一个非常重要的算法，在当代的工业、商业和科学研究领域发挥了越来越重要的作用，而传统算法逐渐体现出了对大数据量的不适应。因此，将该算法移植到云平台上，从而突破性能上的限制是非常有意义的事情。首先对Hadoop项目和MapReduce模型做了深入的分析，并在现有的MapReduce算法基础上提出了一些改进方案，第三章介绍了最大期望算法的原理，并详细地分析了该算法能移植到云平台的原因。第四章提出了期望最大化算法在MapReduce中实现方案，分析了隐马尔科夫模型训练问题，该问题的解决方案是期望最大化算法的一种特殊情况，并在此基础上提出并实现了MR-BaumWelch算法。第五部分对MR-BaumWelch算法性能做了测试,并和单机计算框架Giza++做了对比分析，结果表明移植到MapReduce计算框架后，算法在处理数量和处理效率上都有较大的提升。MR-BaumWelch算法是在海量数据处理需求的前提下，将期望最大化算法和MapReduce计算模型结合的一种算法，实现了传统算法向“云计算”平台的迁移。并充分考虑到了未来业务的发展需求，实现了超大规模的数据运算理论模型。在设计思想中融入了大数据的概念和分布式处理的思想，并且保证了高可靠性和高精确性的要求，实现了完整的编程接口，体现了较好的封装特性，具有较高的推广价值。

其他文献

B公司项目管理团队薪酬体系再设计

国有企业作为中国经济发展的主力军，其发展的好坏直接与民生息息相关。在面对国家不断提出扶持外资企业和私企发展的政策的形势下，确保国企在中国经济中稳步健康地发展，吸引、保

学位

项目管理团队薪酬体系激励机制

武汉新世界百货有限公司发展战略研究

正值全球经济一体化高速发展时期，我国市场经济体制改革不断深化，经济繁荣进程正飞速与国际接轨，城市居民生活水平日益提高，传统零售百货业正面临着其他零售百货业态带来的巨大冲

学位

武汉新世界百货消费行为零售百货营销战略

非饱和土孔隙水作用机理及其在边坡稳定分析中的应用研究

非饱和土内孔隙水的作用形式是引起岩土体力学性质变化的根本性原因。论文依托作者在参与降雨诱发浅层非饱和土滑坡项目（美国地调局-科罗拉多矿业大学联合项目）时所取得的试验

学位

孔隙水非饱和土基质吸力安全系数滑坡

双层预紧式六维力传感器基础理论与应用研究

随着科学技术的迅速发展，传感器技术已经广泛应用于测量、控制及信息等领域，并且已成为高新技术的核心之一。在各种传感器中，六维力传感器以其能够检测空间六维力和力矩的全部信

学位

六维力传感器双层预紧式加权广义逆标定精度预紧力应用研究力反馈控制

政府资产负债表的学科属性探究

探究政府资产负债表的学科属性是研究政府资产负债表编制理论的前提和基础。本文在借助会计学、统计学、财政学和公共管理学科理论分析的基础上,分析了政府资产负债表与其相

期刊

政府资产负债表会计学统计学财政学公共管理学

论城市房屋拆迁的政府责任

在城市房屋拆迁的过程中,政府负有保护人权和产权、制定公共政策、调节各种利益关系的责任。为了完善政府责任,要建立完善的城市房屋拆迁法律制度,制定内容完善的拆迁法;更要

期刊

城市房屋拆迁政府责任法律制度

各类因素协同考虑的多中心开环VRP问题研究

车辆路径问题是物流供应链优化、组合优化领域的重要研究内容,其研究重点也从单因素向多因素协同考虑或前后端纵向集成转移,或以具体行业或业务模式为依托进行研究。本文以乳

学位

多中心产品互斥车辆共享及租赁产品-车辆匹配货物转移

中国碳排放强度预测及其影响因素动态效应建模

全世界各国对全球气候变化日益关注，并采取一系列措施减少温室气体的排放，阻止全球气候变暖。作为全球最大的发展中国家，中国政府作出承诺，提出到2020年，单位GDP的碳排放量相比200

学位

碳排放强度离散二阶差分方法结构向量自回归模型能源强度煤炭消耗比重第三产业比重

一种高精度绕线机控制系统的设计与开发

高精度绕线机是一种用于绕制行波管螺旋线圈的专用电子设备。本文以实际项目为背景，结合对螺旋线加工绕制工艺，对高精度绕线机控制系统进行设计开发。螺旋线也称为慢波线，是在行

学位

绕线机误差补偿直线插补VC编程伺服控制

DZ银行基于服务规范创新的管理模式研究

商业银行随着信息技术的快速发展，他们的服务日新月异，在社会经济中的作用与日俱增。但是我国商业银行的管理水平还很低，这种状况严重制约了商业银行业务的发展，不适应社会主义市

学位

银行服务管理模式规范创新

基于MapReduce的期望最大化算法研究和实现

其他学术论文