论文部分内容阅读
近几年,大数据是一个非常热门的研究课题。面对大数据环境,传统的机器学习算法遇到了巨大的困难和挑战,如何解决这一问题,将传统的机器学习算法扩展到大数据环境具有重要的研究价值和意义。样例选择是解决这一问题的一种可行方案,它从大数据中把重要的样例选择出来,而把不重要的样例、冗余样例和噪声样例从大数据集中约简掉。本文研究了大数据样例选择问题,主要工作包括以下四部分:1.受分治策略和交叉验证思想的启发,提出了一种基于MapReduce/Spark大数据交叉样例选择框架。该框架的基本思想是将大数据集划分为若干个子集,当从某一个子集中选择样例时,用从其他子集训练的分类器组成的委员会评价这一子集中样例的重要性,并行地从该子集中选择重要的样例。在这一框架下,提出了两种样例选择算法:(1)提出了基于MapReduce/Spark和投票熵的大数据交叉样例选择算法。该算法用投票熵度量数据子集中样例的重要性,在多个云计算节点上,从本地数据子集中选择重要的样例,并分别用MapReduce和Spark实现了提出的算法。(2)提出了基于MapReduce/Spark和遗传算法的大数据交叉样例选择算法。该算法用二进制对样例子集进行编码,用子集中样例的平均信息熵作为适应度函数,用MapReduce/Spark计算框架以进化的方式进行交叉样例选择。2.本文还提出一种基于MapReduce/Spark和局部敏感哈希的大数据样例选择算法。该算法的基本思路是将大数据集划分为若干子集,并部署到不同的云计算节点,在各个节点上,用MapReduce/Spark计算框架对本地数据子集进行局部敏感哈希变换,将哈希值相同的样例放在同一个桶中,然后从每一个桶中按一定比例选择样例。3.对于提出的三个大数据样例选择算法进行了实验,并与已有的大数据样例选择算法在样例选择质量、压缩比和算法执行时间这三方面进行实验比较,实验验证了本文提出的大数据样例选择算法在相同的大数据平台上的可行性与高效性。4.对提出的三个大数据样例选择算法两个不同的大数据平台上以样例选择质量、压缩比、算法执行时间和同步次数作为实验指标进行实验对比,得到了一些有价值的结论,对从事相关研究的人员提供很好的帮助。