基于MapReduce/Spark的大数据样例选择研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:qsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,大数据是一个非常热门的研究课题。面对大数据环境,传统的机器学习算法遇到了巨大的困难和挑战,如何解决这一问题,将传统的机器学习算法扩展到大数据环境具有重要的研究价值和意义。样例选择是解决这一问题的一种可行方案,它从大数据中把重要的样例选择出来,而把不重要的样例、冗余样例和噪声样例从大数据集中约简掉。本文研究了大数据样例选择问题,主要工作包括以下四部分:1.受分治策略和交叉验证思想的启发,提出了一种基于MapReduce/Spark大数据交叉样例选择框架。该框架的基本思想是将大数据集划分为若干个子集,当从某一个子集中选择样例时,用从其他子集训练的分类器组成的委员会评价这一子集中样例的重要性,并行地从该子集中选择重要的样例。在这一框架下,提出了两种样例选择算法:(1)提出了基于MapReduce/Spark和投票熵的大数据交叉样例选择算法。该算法用投票熵度量数据子集中样例的重要性,在多个云计算节点上,从本地数据子集中选择重要的样例,并分别用MapReduce和Spark实现了提出的算法。(2)提出了基于MapReduce/Spark和遗传算法的大数据交叉样例选择算法。该算法用二进制对样例子集进行编码,用子集中样例的平均信息熵作为适应度函数,用MapReduce/Spark计算框架以进化的方式进行交叉样例选择。2.本文还提出一种基于MapReduce/Spark和局部敏感哈希的大数据样例选择算法。该算法的基本思路是将大数据集划分为若干子集,并部署到不同的云计算节点,在各个节点上,用MapReduce/Spark计算框架对本地数据子集进行局部敏感哈希变换,将哈希值相同的样例放在同一个桶中,然后从每一个桶中按一定比例选择样例。3.对于提出的三个大数据样例选择算法进行了实验,并与已有的大数据样例选择算法在样例选择质量、压缩比和算法执行时间这三方面进行实验比较,实验验证了本文提出的大数据样例选择算法在相同的大数据平台上的可行性与高效性。4.对提出的三个大数据样例选择算法两个不同的大数据平台上以样例选择质量、压缩比、算法执行时间和同步次数作为实验指标进行实验对比,得到了一些有价值的结论,对从事相关研究的人员提供很好的帮助。
其他文献
随着我国的经济高速发展,我国的科学技术也得到了较好的发展,这些科学技术的快速发展,对相应的行业的发展起到了较好的促进作用。尤其是建筑行业,得益于工程造价管理 BIM 技
作为互联网时代的新兴产物,新媒体业已成为思想文化传播的新兴阵地。新媒体传播的互动性、开放性和自净性特征使传播者与青年受众间的距离更加贴近。这有效提高了青年对信息
当前,社会的发展促进了电气工程及其自动化技术的进步和创新,电气工程及其自动化在工业生产中的广泛应用反过来也促进了社会经济的发展,然而由于我国电气工程及其自动化的研
“一带一路”战略积极鼓励国内企业“走出去”开辟海外市场,同时提倡保险企业为中资企业进行海外投资提供保障服务。本文以YC保险公司为研究对象,作为首家入驻中白工业园内的
乳化油具有稳定的物理和化学性质,因此含乳化油废水成为工业中难以处理的废水,传统方法难以有效去除,这对含油废水的处理形成了巨大的挑战。陶瓷膜超滤技术对乳化油的截留效果很好,特别是碳化硅(SiC)陶瓷膜近年来由于其处理效率高和膜污染较小而成为研究的热点,具有广阔的应用前景。本研究以碳化硅陶瓷膜为材料,来分离工程中难以处理的含乳化油废水,具体研究如下:研究了使用柴油或机油两种基底油和不同种类的表面活性剂