基于PVM的SLIQ算法的并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zhujie18604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘作为知识发现过程关键技术,已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBM Almaden 研究中心提出的一种高速可伸缩的分类算法,广泛应用于大型商业的CRM、信用等级分级等领域。随着应用中数据量的迅速膨胀,采用并行技术是提高数据挖掘效率的一个重要途径。本文首先分析了串行SLIQ算法的原理和特点,针对其不足提出了一些改进方法,然后在基于PVM的环境下实现了算法的并行化,分析了算法的时间复杂度和加速比,提高了SLIQ算法的效率,具有一定的理论意义和实用价值。串行SLIQ算法通过预排序和广度优先技术,能够更加快速和准确地处理大量数据集,并能同时处理离散字段和连续字段。但是,原算法在计算决策树节点的最佳分割点的时候,存在着对属性和记录的多余计算问题。本文提出应该动态的删除叶子节点的记录以及当前节点的祖先节点的分割属性,从而可以明显地减少不必要的计算以及属性表在磁盘和内存之间的IO交换操作。由于难以解决数据挖掘中任务划分的问题,SLIQ算法并行化的主要方向是实现数据的并行。SLIQ算法采用了新颖的数据结构,需要预先建立属性表,所以应该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的是静态平衡策略,对数据的分配按照数据量平均分配,将连续属性和离散属性分别平均分配到各个结点上;在执行分裂后,由于需要计算的属性不断减少,则采用了动态负载平衡的策略,通过消息传递的方式将部分计算任务分配给负载较轻的处理机单元。通过对串行和并行算法时间复杂度的计算表明,当数据集充分大时,由于连续属性的排序计算操作分散到各个处理机单元上进行,显著降低了计算时间,从而可以得到近似于处理机个数的加速比,对于离散属性,本并行算法对串行算法的性能提高有限
其他文献
数值天气预报是当今气象预报不可缺少的重要工具,它的发展使气象预报成为了一个和超级计算机以及并行计算关系密切的领域.该论文从介绍数值天气预报的历史及其计算方法的特点
客户关系管理(CRM)是最近几年兴起的一个概念,可以从三个层面来理解CRM,它是一种现代的经营管理理念,也是一整套解决方案,同时又是一套应用软件系统.CRM从功能上可以分为三类
学位
随着嫦娥三号、暗物质粒子探测卫星以及世界首颗量子科学实验卫星“墨子号”的成功发射,我国的空间探测技术取得了巨大进步。与此同时,作为探测手段之一的星载成像技术也得到
统计语言模型是上世纪80年代兴起的语言建模方法。经过20多年的发展,它已经渗透到了计算语言学的各个层面,并且在以下各个领域都取得了极大的成功,如语音识别、手写识别、机器翻
本文提出并实现了一个具有高度灵活性、可并行化的三维CT重建框架。本框架基于目前在机器学习、信号处理领域比较流行的proximal算法。在CT三维重建领域,虽然迭代型算法重建
科学的软件过程管理和软件过程仿真是提高软件生产率、保证软件质量的两种重要的方法,作为比较新的研究领域,他们正日益受到学术界和IT业界的关注。本文就是描述了一种针对小组
本文针对极弱光条件下可视目标探测问题,利用单像素相机特有的高通量测量特性以及高通量测量带来的超高灵敏度优点,采用压缩感知扫描成像方式,在一定程度上解决了成像速度问
传输控制协议TCP是专门设计用于在Internet上提供可靠的、健壮的、端到端的通讯协议。TCP能在分组丢失率低,且丢失主要由网络拥塞所致的传统网络中获得成功,然而,在有线/无线异构
本论文的研究就是从现代物流运输系统的重要性出发而展开的,论文全文包括五章内容以及结论与展望部分。第一章简单介绍了物流的概念和发展现状,并且介绍了GIS的概念、数据组织