基于数据集稀疏度的频繁项集挖掘算法性能分析

来源 :计算机应用 | 被引量 : 0次 | 上传用户:dragoonzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘(FIM)是最基础的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。数据集稀疏度是体现数据集本质特征的属性之一,不同类型的FIM算法对数据集稀疏度的可扩展性有着很大的不同。针对如何量化度量数据集稀疏度及稀疏度对不同类型FIM算法性能影响等问题,首先回顾并讨论了已有的度量方法,然后提出两种新的量化度量数据集稀疏度的方法(基于事务差异度的度量方法和基于FP-Tree的度量方法)。这两种度量方法均考虑了FIM任务背景下最小支持度对数据集稀疏度的影响,反映的是事务频繁项集之间的差异度。最后通过实验验证了不同类型FIM算法对数据集稀疏度的可扩展性。实验结果表明,数据集稀疏度与最小支持度成反比,基于垂直格式的FIM算法在三类典型FIM算法中具有最佳的稀疏度可扩展性。
其他文献
近两年来,我国塑料挤出机市场有了不小的前进与突破,在我国塑料机械市场中,挤出机作为重要加工设备,发展前景非常乐观,我国塑料机械企业近年来加大了对挤出机新兴市场的开拓,
目的:比较后程加速超分割及后程加速超分割联合化疗与常规分割放疗食管癌的疗效与毒副作用。方法:将120例患者随机分为3组:后程加速超分割(late course fractionation radiothera
中国本土固有冥界观涉及黄泉、泰山以及酆都等概念,这代表了古人对死后世界的认知。汉代佛教的传入,其地狱及生死轮回思想逐渐与中土原有冥界观相融合,逐步构建成地狱十王信
根据热轧飞剪的剪切原理,分析影响剪切长度的因素,通过飞剪头尾跟踪原理的分析,找出影响飞剪跟踪的要素。针对影响飞剪剪切长度稳定性的部分故障探索解决问题的方法。