基于PVM的SLIQ算法的并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：zhujie18604

【摘要】

：

数据挖掘作为知识发现过程关键技术，已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBM Almaden 研究中心提出的一种高速可伸缩的分类算法，广泛应

【作者】

：

薛峙

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2003年期

【关键词】

：

SLIQ 并行算法 PVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘作为知识发现过程关键技术，已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBM Almaden 研究中心提出的一种高速可伸缩的分类算法，广泛应用于大型商业的CRM、信用等级分级等领域。随着应用中数据量的迅速膨胀，采用并行技术是提高数据挖掘效率的一个重要途径。本文首先分析了串行SLIQ算法的原理和特点，针对其不足提出了一些改进方法，然后在基于PVM的环境下实现了算法的并行化，分析了算法的时间复杂度和加速比，提高了SLIQ算法的效率，具有一定的理论意义和实用价值。串行SLIQ算法通过预排序和广度优先技术，能够更加快速和准确地处理大量数据集，并能同时处理离散字段和连续字段。但是，原算法在计算决策树节点的最佳分割点的时候，存在着对属性和记录的多余计算问题。本文提出应该动态的删除叶子节点的记录以及当前节点的祖先节点的分割属性，从而可以明显地减少不必要的计算以及属性表在磁盘和内存之间的IO交换操作。由于难以解决数据挖掘中任务划分的问题，SLIQ算法并行化的主要方向是实现数据的并行。SLIQ算法采用了新颖的数据结构，需要预先建立属性表，所以应该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的是静态平衡策略，对数据的分配按照数据量平均分配，将连续属性和离散属性分别平均分配到各个结点上;在执行分裂后，由于需要计算的属性不断减少，则采用了动态负载平衡的策略，通过消息传递的方式将部分计算任务分配给负载较轻的处理机单元。通过对串行和并行算法时间复杂度的计算表明，当数据集充分大时，由于连续属性的排序计算操作分散到各个处理机单元上进行，显著降低了计算时间，从而可以得到近似于处理机个数的加速比，对于离散属性，本并行算法对串行算法的性能提高有限

其他文献

中尺度数值预报模式MM5的并行技术分析与研究

数值天气预报是当今气象预报不可缺少的重要工具,它的发展使气象预报成为了一个和超级计算机以及并行计算关系密切的领域.该论文从介绍数值天气预报的历史及其计算方法的特点

学位

数值预报并行计算并行化RSLFLIC

聚类技术在客户关系管理中的应用研究

客户关系管理(CRM)是最近几年兴起的一个概念,可以从三个层面来理解CRM,它是一种现代的经营管理理念,也是一整套解决方案,同时又是一套应用软件系统.CRM从功能上可以分为三类

学位

数据挖掘聚类客户关系管理划分算法数据仓库客户细分知识发现

星载图像压缩核VLSI实现的软件验证

随着嫦娥三号、暗物质粒子探测卫星以及世界首颗量子科学实验卫星“墨子号”的成功发射,我国的空间探测技术取得了巨大进步。与此同时,作为探测手段之一的星载成像技术也得到

学位

CCSDS-IDC小波变换位平面编码软件验证图形界面

依存语言模型在信息检索中的应用研究

统计语言模型是上世纪80年代兴起的语言建模方法。经过20多年的发展，它已经渗透到了计算语言学的各个层面，并且在以下各个领域都取得了极大的成功，如语音识别、手写识别、机器翻

学位

语言模型 n-gram模型依存语言模型统计平滑信息检索

Proximal算法在CT不完全投影数据重建中的应用

本文提出并实现了一个具有高度灵活性、可并行化的三维CT重建框架。本框架基于目前在机器学习、信号处理领域比较流行的proximal算法。在CT三维重建领域,虽然迭代型算法重建

学位

三维重建CT扫描Proximal算法ADMM可视化TV

小组软件过程的HDSD模型及仿真算法研究

科学的软件过程管理和软件过程仿真是提高软件生产率、保证软件质量的两种重要的方法，作为比较新的研究领域，他们正日益受到学术界和IT业界的关注。本文就是描述了一种针对小组

学位

软件过程小组软件过程软件过程仿真混合建模

基于行扫描测量的运动目标压缩成像研究

本文针对极弱光条件下可视目标探测问题,利用单像素相机特有的高通量测量特性以及高通量测量带来的超高灵敏度优点,采用压缩感知扫描成像方式,在一定程度上解决了成像速度问

学位

压缩感知运动目标成像行扫描运动测量矩阵

基于无线TCP数据链路层解决机制的研究

传输控制协议TCP是专门设计用于在Internet上提供可靠的、健壮的、端到端的通讯协议。TCP能在分组丢失率低，且丢失主要由网络拥塞所致的传统网络中获得成功，然而，在有线／无线异构

学位

簇生丢失重传协议选择否定性确认机制簇生丢失数据链路层重传

基于GIS的网络物流模型研究

本论文的研究就是从现代物流运输系统的重要性出发而展开的，论文全文包括五章内容以及结论与展望部分。第一章简单介绍了物流的概念和发展现状，并且介绍了GIS的概念、数据组织

学位

GIS网络物流模型Dijkstra算法运输问题最小费用最大流

基于PVM的SLIQ算法的并行化研究

其他学术论文