论文部分内容阅读
随着领域中的数据量高速的增长,传统计算方法在处理大规模数据集运算时出现了性能上的瓶颈。伴随着“云计算”时代的到来,一种简单的并行计算模型MapReduce进入了人们的视线,它将实现和业务逻辑分离,只需要简单地调用接口就可以实现分布式的计算。作为一种解决方案,MapReduce有效的解决了传统算法处理大规模数据集运算的性能瓶颈。期望最大化算法作为机器学习中的一个非常重要的算法,在当代的工业、商业和科学研究领域发挥了越来越重要的作用,而传统算法逐渐体现出了对大数据量的不适应。因此,将该算法移植到云平台上,从而突破性能上的限制是非常有意义的事情。首先对Hadoop项目和MapReduce模型做了深入的分析,并在现有的MapReduce算法基础上提出了一些改进方案,第三章介绍了最大期望算法的原理,并详细地分析了该算法能移植到云平台的原因。第四章提出了期望最大化算法在MapReduce中实现方案,分析了隐马尔科夫模型训练问题,该问题的解决方案是期望最大化算法的一种特殊情况,并在此基础上提出并实现了MR-BaumWelch算法。第五部分对MR-BaumWelch算法性能做了测试,并和单机计算框架Giza++做了对比分析,结果表明移植到MapReduce计算框架后,算法在处理数量和处理效率上都有较大的提升。MR-BaumWelch算法是在海量数据处理需求的前提下,将期望最大化算法和MapReduce计算模型结合的一种算法,实现了传统算法向“云计算”平台的迁移。并充分考虑到了未来业务的发展需求,实现了超大规模的数据运算理论模型。在设计思想中融入了大数据的概念和分布式处理的思想,并且保证了高可靠性和高精确性的要求,实现了完整的编程接口,体现了较好的封装特性,具有较高的推广价值。