集成数据分析算法的公共服务平台的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:zhj8028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随企业生产和个人用户活动产生的大规模数据集,如何从这些数据中分析提取出有价值、有意义的信息得到了人们越来越多的重视。但目前的一些数据分析平台,一方面需要具有专业数据分析背景的人员进行操作,另一方面平台对用户数据文件属性字段选择、分析算法的参数设置、算法计算模型公式选择等方面没有提供完全的支持,使得用户需要去了解具体的数据分析算法流程和该过程对数据集属性字段的影响。所以,本文针对用户数据集属性特点,研究并实现公共服务平台与数据分析算法的集成,具有十分重要的意义。  本文研究数据分析公共服务平台与数据分析算法集成,通过对两类K-Means算法与公共服务平台的集成实现,进一步总结出公共服务平台与一般算法集成的共性。本文主要工作如下:首先对常见的聚类 K-Means算法进行分析,总结出该算法与公共服务平台集成的三类共性参数:聚类个数K,相似性距离公式选择和用户数据集属性字段选择。随后基于共性参数,实现 K-Means算法集与公共服务平台的集成工作。论文还给出了基于最远最近距离的 K-Means算法的分析,并对其参数和可并行化操作进行了分析,进而对可并行部分进行MapReduce的并行化,最后将基于距离MapReduce化的K-Means算法集成到数据分析公共服务平台中。  此外,论文基于对两类 K-Means算法与公共服务平台的集成实现的分析,设计了一般数据分析算法与平台集成的数据库设计、接口实现和调用执行实现过程。
其他文献
实时数据库(Real Time Database,RTDB)作为监控组态软件设计与实现的核心内容,解决了其所应对的现代工业生产现场环境中生产数据与控制数据类型复杂多样,数据处理与事件调度
指令集仿真器具有成本低、开发快捷、可操控性好等优点,得到了广泛的应用,但是手工开发,周期长,且易出错,自动生成的仿真器则速度相对较慢,因而,本文旨在构造一种速度更快的
电力系统仿真分析技术是分析判断电力网稳定性和安全性的有力工具。当前,传统的电力系统仿真软件存在着系统耦合性较高、自动化程度较低等问题,越来越难以满足电力系统对暂态仿
随着信息技术和管理理论的发展以及计算机网络的广泛应用,工作流技术正在成为计算机应用领域的研究热点。现代企业的信息系统的分布性、异构性和自治性的特征越来越显著,企业
面向服务即SOA(Service-Oriented Architecture)是一种进行系统开发的新的体系架构,而Web服务技术已经成为越来越多企业的首选方案,因为其具有低耦合的特性使得软件、系统的集成
Web Services技术已经在数据交换平台中得到了广泛应用,为了对数据交换平台进行统一监控和管理,需要建立数据交换平台管理监控系统。由于WebServices具有开放性、跨平台和互
随着网络的快速发展,人们在使用网络提供的各种服务和信息的同时也面临着日益增加的网络入侵的困扰,网络安全成为迫切需要解决的问题之一。异常检测是目前入侵检测系统研究的主
密码学作为信息保护的手段,最早应用在军事和外交领域,随科技的发展逐渐进入人们的生活中。传统的对密码协议的建模和分析主要包括:代数模型,逻辑模型,逻辑和代数模型,代数和
在应答一个来自用户的查询(query)时,现代搜索引擎会返回给用户前k个相关的查询结果及其摘要。摘要是一小段摘选于文档的文本,该段文本归纳了查询词与文档的相关关系。生成摘
可验证的秘密分享是现代密码学重要的工具之一,自从它被提出来以后,有很多的学者对它进行了广泛的研究,并且提出了许多安全高效的VSS方案,现在可验证秘密分享方案在安全多方