基于位图压缩技术的关联规则挖掘算法设计及应用研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:historycode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前数据技术的发展依然是热点,技术的进步使得我们从各方面积累数据集,数据挖掘技术是我们从数据中获取信息的重要手段,面对急剧增长的数据,如何提高数据挖掘的效率并高效的应用于不同领域依然是我们关注的热点。关联规则挖掘算法可以从数据集中发现随机数据之间的潜在联系,是基础的数据分析功能之一。作为数据挖掘的经典算法,Apriori算法因其挖掘频繁项集时需要多次遍历数据库,同时缺乏合适的剪枝策略,会产生过多的候选项集,导致算法效率不高、内存负载较大等问题。基于此,许多学者提出了对Apriori算法的各类改进方法,其中基于位图的MBSA(Map-based Bitset Association Rule)算法,在遍历一次数据库后,将数据映射到位图中,利用位图的逻辑运算实现连接操作,具有较高的挖掘效率。在将基于位图算法应用与实际数据时,发现将一些特定的数据转为位图后,因为数据自身的特点,会产生大量的0值,并在实际的位运算存储中造成空间的大量占用。在位图映射的表示中“1”代表该项出现,“0”值代表该项未出现,而“0”值仅在和“1”值执行连接步的位运算时有意义,大量0值之间的运算其实是毫无意义的,因此会降低算法在空间和时间上的效率。基于此,本文提出一种基于压缩位图的关联规则挖掘算法,该算法只考虑位图中“1”值(本文称为有效值)的存储及运算,采用数组的方式存储有效值的位置索引,实现了对位图的简单压缩,从而节省了存储空间。基于新的存储方式,本文重新设计了连接算法,通过使用数组的交集运算实现连接操作,同时采用更优秀的交集策略,有效节约了运算时间。交集运算得到的数组即为新候选项集的存储数组,新数组的大小即为新项集的支持度。由于传统的位图的算法在连接步中,未利用合适的方法剪枝频繁项集,项集之间的多次组合会产生数量庞大的候选项集,降低了算法效率。因此,本文在生成候选项集时,通过优化的剪枝策略,剔除掉无用的候选项集,提高运算效率。虽然基于数组的交集运算的效率不如位运算,但由于对数据进行了压缩,减少了数据的数目及运算量,从算法的整体性能上来看,反而提高了效率。如果有效值的占比低于1/16,基于有效值存储方式对应的存储容量就会比位图小。由于本文使用简单的数据压缩方式,有效值数量的多少会对算法效率造成影响,因此使用生成数据和实际数据对两种算法做对比试验,对比各自在时间和空间上的性能。在对实际数据的应用中,我们发现一些超市数据,在转换位图存储后有效值“1”的占比非常低,位图分布比较稀疏。本文提出的算法比传统的位图算法在时间和空间上具有更好的性能。因此,本文提出的算法在稀疏数据集的关联规则挖掘中具有更高的实用价值。
其他文献
作为发达国家,奥地利的职业教育因其良好的体制保障和很高的教学质量早已深入人心,得到了社会和企业的广泛认可。2004年,本人被所在学校选派到奥地利,
期刊
学习是一种个性化行为,应当在课堂教学环境中创设一个有利于张扬学生个性的"场所",营造宽松的课堂气氛,让学生成为课堂的主人,在数学教学中培养学生学习数学的兴趣。
情境教学就是指在教学过程中为了达到既定的教学目的,从教学需要出发,制造或创设与教学内容相适应的场景或氛围,引起学生的情感体验,帮助学生迅速地正确理解教材的内容,获得
大服务是购物中心的管理核心购物中心的核心盈利点是租金收入,取得稳定的租金收入需要确保所引入的租户有稳定的营业收入,而租户的营业状况又取决于购物中心的选址、定位、促
推导出了多轴带传动带长、包角的计算公式,利用该公式可方便的进行多轴带传动的设计计算,可取代传统的试凑方法.
本文利用固相反应法合成Ru掺杂的Ruddlesden-Popper(RP)型化合物Sr3Fe2-xRuxO7(x=0,0.3,0.6,1.0,1.4),并通过XRD检测其结构和纯度,研究其晶胞参数,电输运及磁性质随掺杂量x的变化
在新课程改革背景下,学校教育要突破校园的界限,挖掘更为广阔的教育资源来为师生成长服务。如何在小学道德与法治教学中,将有益的社区资源融入进来,为学生提供更为有效的学习