数据挖掘中分布式关联规则算法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:drrrrr123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘中重要的研究方向之一,致力发现数据背后蕴含的规则和联系。随着互联网信息技术和人工智能技术的深入发展,全球数据量呈现指数式增长。因此需要算法能更加及时,准确的做出分析和处理,由于算法本身需要多次迭代,使得挖掘效率受限于计算机性能,传统的串行关联规则挖掘方式难以为继。因此以Hadoop为代表的并行计算平台应运而生,为处理大数据提供了新的思路和可靠的保障,实现了海量数据的可靠存储与高效处理。而基于内存并行的Spark计算框架,因良好的灵活性和扩展性,使其能够更加高效处理迭代问题。因此本文利用Hadoop与Spark相关技术实现关联规则优化算法的分布式并行,主要工作内容如下:1、本文提出基于存储机制与深度剪枝优化的BDEclat算法。随着数据量的增加,Eclat算法存在候选项集规模大,连接操作频繁等问题。利用二进制矢量存储事务记录列表,位“与”运算计算事务支持度,结合预剪枝、约束剪枝、后剪枝压缩候选项集规模,最后通过实验验证了改进的有效性。2、为进一步提升算法应对海量数据的能力,提出基于Spark框架的BDEclat并行算法—BPEclat。针对算法结构和前缀项划分过程出现的数据分区不均衡问题,通过调整算法结构并引入计算量,利用自适应步长划分的思想对数据进行分区,最后通过实验验证了改进的有效性。3、提出一种结合BPEclat与K-Means++的聚类关联规则挖掘模型,针对TE化工过程数据集,分别利用K-Means++、1σ准则对状态变量、操作变量进行离散化和标准化,并通过操作关联规则挖掘,验证模型的实用价值与有效性,实现技术研究到实用成果的转化。
其他文献
以工作过程导向的课程体系是高职课程体系改革的主要内容。本文从建立课程标准、学习领域课程方案、教学改革新范式、灵活考试制度、高水准的实训基地、专业教学团队六个维度
对低压条件下自然循环回路内的两相间歇泉流动不稳定性进行了实验研究。同时,对REL A P5/M OD3.2程序计算低压自然循环间歇泉流动不稳定的可行性进行了验证分析。实验结果表明
高招期间,媒体报道了香港大学组织学生面试的部分讨论话题:北京2008年举办奥运会的利与弊;你对婚前同居的看法;如果给你300亿,你如何改进中国的状况;比尔·盖茨从哈佛退学创建
《语文课程标准》指出:“语文应致力于学生语文素养的形成与发展。”“语文是实践性很强的课程,应着重培养学生的语文实践能力。”无论是语文素养,还是语文能力,都离不开语文实践
2000年一个冬天的上午,我上初二(9)班的音乐课,学习《故乡的亲人》这首歌。我发现有一个女生,低着头,紧锁眉,眼睛充满血丝,又红又肿。在那么多的学生面前,我又不便询问她精神不振的缘
矿产执法监察是充分实施矿产资源法律法规规定,实现国家矿产资源管理职能的重要手段。近年来,随着政策法规的不断完善,矿产执法监管效果明显提升。但由于房地产、建筑及化工等行业对矿产原料需求的不断加大,导致矿产资源违法开采行为频发。当前,大连市政府机构改革刚刚落幕,多部门和职能进行整合,正式组建自然资源局,实行自然资源统一管理。矿产资源作为自然资源的重要组成部分,如何有效打击和查处违法开采行为,合理保护矿