【摘 要】
:
在飞速发展的信息化时代中,数据逐渐成为人们关注的焦点。数据爆炸式的增长趋势不断促使数据挖掘技术的发展。但是,传统的数据挖掘技术无法快速有效的处理海量数据,因此,并行
论文部分内容阅读
在飞速发展的信息化时代中,数据逐渐成为人们关注的焦点。数据爆炸式的增长趋势不断促使数据挖掘技术的发展。但是,传统的数据挖掘技术无法快速有效的处理海量数据,因此,并行化的分布式数据挖掘技术为大数据分析提供了新的研究方向。本文重点研究了基于密度的聚类方法并且改进了 2014年Alex Rodriguez在science上提出的通过快速搜索和发现的密度峰值聚类算法(Clustering by fast search and find of density peaks,CFSFDP),针对其不能自动确定聚类中心以及时间复杂度高的缺点作出了进一步的改进。本文主要工作如下:(1)CFSFDP算法在确定聚类中心点时,需要通过决策图人为进行选择,具有一定的主观意识,因此聚类结果缺乏科学性与准确性。针对这一缺点,本文提出了一种能够自动确定聚类中心的密度峰值聚类算法——AUTO-CFSFDP(Auto determine the cluster-Clustering by fast search and find of density peaks)。首先针对变量分布不均匀的问题,将密度和距离进行归一化处理,再通过切比雪夫不等式确定归一化后的密度阈值上限,利用标准差确定归一化后的距离阈值上限,最后根据决策函数确定决策阈值上限,统筹考虑两种决定因素,避免中心点选取遗漏,实现自动确定聚类中心。实验结果表明该算法能够有效地自适应选择聚类中心,并且具有很好的鲁棒性和有效性。(2)AUTO-CFSFDP与CFSFDP算法一样在进行聚类的过程中需要遍历整个数据集,因此同样具有时间复杂度较高的缺点,针对这一缺点,本文提出了一种基于Spark框架的并行式的AUTO-CFSFDP算法——PAUTO-CFSFDP(Parallel Auto determine the cluster-Clustering by fast search and find of density peaks)。该方法首先对数据进行了分区,将数据切割成大小基本一致的数据空间,其次在每一个数据空间内进行局部聚类,最后将局部聚类结果汇总进行全局聚类。在此基础之上,本文对非中心点划分进行了进一步的改进,利用三角不等式的原理简化划分过程。实验结果表明,Spark框架下的并行式密度峰值聚类算法相较于原始算法在计算效率上取得了更好的效果。(3)将Spark框架下的并行式密度峰值聚类算法运用到了孕妇医疗数据当中,对孕妇的妊娠方式提供了推荐,为婴儿发育情况提供了参考,实验证明该算法具有一定的实用价值。
其他文献
道床裂缝、板间离缝是无砟轨道结构主要伤损型式,严重影响着轨道的工作性能,现阶段无砟轨道修复工艺多注重修复结果,对病害形成机理缺乏考虑,易造成盲目维修,轻则影响修复效果,重则恶化轨道性能。某地铁运营线曲线桥上纵向承台式整体道床损伤严重,主要包括道床板八字型裂缝、道床板劈裂、道床板晃动三类,三类病害实质均为道床裂缝与板间离缝问题。为准确判断轨道病害形成机理,考虑地铁运营线轨道病害修复的时效性与安全性,
近年来,国民经济不断发展,人民生活水平逐步提升,在此背景下,为了满足人们对美好生活的追求,智能手机制造技术飞速发展,不断丰富人们日常娱乐活动。目前,在众多娱乐活动中,音
随着智能硬件的发展,计算机视觉领域进入高速发展期。在此背景下,视频序列下的在线多目标跟踪有着极大的场景应用价值。例如在视频监控的人流分析,智能城市交通、智能视觉导
有机金属卤化物CH3NH3PbI3是制备太阳能电池等光伏器件的理想材料,但是其柔性较差一直是限制其发展和应用的重要原因。随着“可穿戴”概念兴起,柔性光伏器件正逐渐受到越来越
一到美术课,高中生就会欢呼雀跃,似乎对美术课充满了兴趣。其实不然,我们甚至可以说绝大部分学生对美术学习是不感兴趣的,他们之所以喜欢美术课堂,是因为美术课堂的教学氛围
目前,医疗机构使用的传统电子病历系统大多彼此独立,很难实现不同系统之间的信息交互。同时,传统电子病历系统中的医疗数据集中存储在医疗机构本地的数据库中,可能遭遇黑客攻击或者机构内部人员的窃取,数据安全难以保障。此外,医疗机构掌握着患者的医疗数据,带来了相应的隐私泄露问题。而区块链电子病历系统利用区块链技术能够在实现医疗数据安全存储与高效共享的同时,也充分保护病人的隐私权以及对医疗数据的所有权。共识机
多接收者签密方案是安全广播通信的一种方式,它解决了一对多通信需要重复签密的问题,只需要一次签密过程就可以发送给多个接收者,在电子投票、防火墙组播等场景下有着广泛应
数控机床作为中国制造2025的战略必争领域,以技术为核心的功能开发已经日趋成熟,但以数控机床为主体的造型设计研究深度不足,研究以数控机床造型为中心的系统具有积极的理论
随着能源的消耗和空气污染的加剧,节能减排成为越来越重要的研究方向。对于汽车起重机来说,其多工作于城市工况,启动频繁,负载变化比较剧烈,对其进行节能减排混合动力改造研究具有实际意义。混合动力车辆的核心在于制动系统。对于混合动力车辆来说,如何在保证制动安全的前提下实现良好的能量回收是车辆选择混合动力构型及进行复合控制的前提。其中,保证制动安全的重要因素是实现车辆制动转矩的控制。本文基于校企合作项目“起
纵观中国历年经济发展之态势,迅猛二字都不足以概括。中国发展之快是大家有目共睹的,但伴随着经济社会发展的同时,环境问题也不断出现,环境事件频频发生,环境公害纠纷也日益增多。目前,中国解决这类纠纷的途径有两条路,一条是行政调解,一条是诉讼之路,这两条途径也并没有使得环境纠纷得到比较理想的解决。然而日益凸显的环境公害问题成为了经济发展的一个重大阻碍,如何高效、迅速、公正的解决环境公害纠纷,成为一个亟待解