【摘 要】
:
随着大数据技术的快速发展和广泛应用,学术界和IT企业都涌现了大量的相关研究,包括分布式数据挖掘平台Hadoop、Spark等的技术改进,数据挖掘算法的性能优化等。但是目前,关于
论文部分内容阅读
随着大数据技术的快速发展和广泛应用,学术界和IT企业都涌现了大量的相关研究,包括分布式数据挖掘平台Hadoop、Spark等的技术改进,数据挖掘算法的性能优化等。但是目前,关于数据挖掘平台服务化的研究却甚少,对Spark等数据挖掘平台的使用仍停留在较为初级的层面。应用开发者在使用此类平台时,需要自行负责集群的部署、运维,甚至底层资源的管理,耗费了开发者大量的时间和精力,提高了应用开发的门槛。本文基于当下流行的容器技术,提出采用容器承载Spark集群节点的方式,借助容器轻量级、启动快的优势,实现Spark集群的快速创建、动态扩/缩容,进而达到Spark集群的自动化部署、管理的目的。使Spark集群成为一种按需使用的服务呈现给数据挖掘应用开发者。本文的主要工作内容可分为两个方面。一方面,设计实现了一个Spark数据挖掘平台服务系统,包括对底层物理资源的统一管理,基于容器技术实现Spark集群自动化配置、修改,以及数据挖掘应用的提交管理。首先,从应用开发者的角度分析了该系统在功能和非功能两方面的需求。然后采用自顶向下逐层分析的方式,逐步设计系统的各个模块,直至实现。另一方面,针对串行算法的并行改编问问题,基于依赖分析技术,提出了数据项依赖模型,对算法中数据元素的依赖关系进行分析,并提出了基于数据项依赖模型的并行性分析算法,分析在源数据集上进行数据并行计算的可行性,减少开发人员的工作量,提高此类问题的解决效率。
其他文献
手写输入是智能手机用户最重要的信息输入方式之一,大量用户敏感信息通过手写方式输入到智能手机中,例如,聊天记录、密码和会议记录等。与此同时随着个人隐私泄露事件不断出现,智能手机用户也逐渐重视自我隐私数据保护,开始对基于常规方式(恶意软件)的隐私泄露有所防范。但是用户目前对于一种更隐蔽的隐私泄露途径缺少足够的防范意识——基于手机侧信道分析的个人隐私信息推测。为了让智能手机用户意识到这类隐私泄露方式对其
目的:探讨Ribbed+T.O.P.与Ribbed+Betacup假体在初次全髋关节置换术中的应用并观察其近期临床疗效,为临床选择两种假体提供可靠的依据支持。方法:随机选择2015年01月至2016年
如何有效地挖掘和学习海量的无标记数据中的规律,让用户快速找到需要的信息,是当前机器学习领域的一个研究热点。半监督学习利用少量标记数据和大量无标记数据的综合信息来提
海水作为一种强腐蚀性介质,容易因材料腐蚀导致装备或零部件失效,造成安全隐患、经济损失甚至人员伤亡,作为海洋工程的基础,材料的选择及应用至关重要。钝化金属及合金因能在表面生成钝化膜抵抗海水腐蚀而被广泛应用于海洋领域,成为应用最广泛的海工装备材料。然而,钝化合金结构零部件服役期间不可避免地承受摩擦等机械作用,容易因钝化膜被破坏而导致材料腐蚀或突发性失效,严重影响了海工装备的服役寿命、安全性和可靠性,给
随着通信技术的进步,移动互联网呈现爆发式发展,为了满足用户对通信速率日益增长的要求,网络架构不断趋向于扁平化。但由于成本等各种原因,物理设备的更新换代速度明显滞后于
目的:前瞻性地探讨及比较Cable-pin和张力带系统两种方式治疗闭合性粉碎型髌骨骨折的临床疗效分析。以便获取治疗闭合性粉碎型髌骨骨折的临床疗效的最佳手术方案,并为临床手
站内搜索引擎作为网站平台内部的搜索引擎,通过分析用户输入并检索返回相关站内数据,为平台的用户提供了快速、便捷的数据访问入口。而基于SaaS的网站往往具有多租户、功能多
伴随着计算机网络的诞生,计算机技术被越来越多的人所熟知,并且得到了越来越广泛的应用。这些新的计算机技术的相关升级使我们拥有了更强大的计算能力,更高的灵活性和方便性,
随着全球经济的发展,企业在收获机遇的同时也面临着日益激烈的竞争。在激烈的竞争环境中,企业发展除了依靠品牌和生产规模,更重要的是不断提供满足顾客和市场需求的产品。S公
众所周知,聚丙烯(PP)易燃,给日常生活及人的财产及生命安全带来了重大的威胁,因此对于聚丙烯的阻燃至关重要。聚氯乙烯由于本身含有氯元素,因而不易燃烧,但软质聚氯乙烯由于加入了大量的增塑剂,从而使得聚氯乙烯本身变得极易燃烧,同时由于PVC在燃烧时生成大量的顺式烯烃进而环化生成芳香族化合物,并进一步生成稠环芳香族树脂,而芳香族化合物会热解为多烯烃、苯、HCl、烯烃和烷烃等,这些中间产物进一步生成黑烟,