基于位值压缩存储的频繁模式挖掘方法及应用研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:dewuwangwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术已经成熟地应用于现实生活中的各个领域,实现了对数据的收集、存储以及简单统计处理分析。数据挖掘技术能够进一步发现隐藏在数据中的关联规则,而频繁模式挖掘是关联规则挖掘的重要步骤。频繁模式挖掘有着广泛的应用领域,根据挖掘对象的不同,又可以得到不同的分类。本文对现有的频繁模式挖掘算法进行了详细的总结,根据事务中项发生的位置,采用位置值或者比特位的形式压缩存储数据集,基于位值压缩存储研究频繁模式中的频繁项集挖掘算法和频繁序列挖掘算法,设计了不同挖掘要求下的高效算法以及适用于生物序列和顾客购买行为分析的应用算法。本文的研究内容和创新成果如下:首先,介绍了频繁模式挖掘的相关定义和分类,并给出了不同分类下的典型算法。通过研究现状分析,对现有频繁模式挖掘算法进行总结对比,进一步学习算法各自的优缺点,发现其中存在的问题和面临的新挑战。在充分了解频繁模式挖掘算法发展过程的基础上,列举频繁模式挖掘算法的典型应用,根据频繁模式挖掘算法的理论意义和应用价值,对其发展趋势进行预测分析。其次,提出了两种不同挖掘需求下的频繁项集挖掘算法。Max Pat_HB算法通过挖掘最大频繁项集,有效缩小了频繁项集的规模,采用边产生候选项集边进行频繁性测试的策略来避免过多候选集的产生。与此同时,算法采用位向量和栈思想,用位向量值的变换代替出栈和入栈操作,使得算法达到较高的效率。FP_TopK算法用于挖掘前k名频繁项集,该算法适用于需要较少结果集的专家系统或者决策支持系统等。算法从树形结构中抽取节点集合,节点信息中包含节点在树中先序遍历和后序遍历的顺序值,进而基于节点信息进行候选集的生成和测试。在保证频繁性的前提下,得到高质量的挖掘结果。再次,设计了三种不同挖掘需求下的频繁序列模式挖掘算法。CB-PMFS算法是具有常规挖掘任务的算法,引入位置信息,可以通过一次对比双向产生候选集,很好地解决了算法运行过程中的瓶颈的问题,即产生候选集所需要的时间过多。TDD_MFS算法用于挖掘最大频繁序列模式,也可以有效地减小频繁序列模式的结果集,算法采用延迟分解的思想,自顶向下,总是对最长的序列进行分解,避免了对频繁子集的重复挖掘。FIIP-BM算法将频繁序列模式挖掘算法进一步划分为内部问题和内联问题。内部问题指在一次事务中发生,内联问题则是在制定的间隔内,发生在同一单元的不同的事务中。当间隔设置为零时,算法适用于内部问题,即常规挖掘任务;当间隔不为零时,算法适用于内部问题和内联问题,可以得到内部频繁模式和内联频繁模式。最后,结合生物序列的特性和顾客购买行为的分析需求设计了两个应用算法。生物序列挖掘算法FBSB考虑到生物序列必须连续出现的特性,引入元素的位置信息建立快速排序列表,通过位置信息值必须相邻的要求,保证了所有候选集都是真实出现的,并且可以得到全部频繁序列,满足了生物序列挖掘正确性的要求。顾客购买行为挖掘算法FP-ICA将顾客购买行为分析分为面向货物和面向顾客的,通过位向量和位值变换来实现挖掘过程,面向货物的挖掘结果可以用于商家管理自己的货架,促使顾客在一次购买行为中购买更多的相关货物;面向顾客的挖掘结果可以用于向顾客推荐其可能需要的货物,促使顾客在以后购买更多可能并没有计划要购买的货物。实验在真实数据集和人造数据集上进行,对算法的效率、可扩展性及内存开销等进行了分析,在保证高质量的挖掘结果的前提下,算法的高效性和良好的扩展性得到了验证。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
文章利用德政碑,探讨了唐代以耆老为代表的乡族势力其地方政治的参与情况,大体有三:为藩镇和州县官员申奏刻立德政碑,上书反映当地官员的治绩或败绩,干涉地方官员的去留。透
孟加拉新年孟加拉历1月1日,约公历4—5月份。孟加拉国和印度的西孟加拉邦都庆祝这一天,所有教育机构都放假。商业、事业和店铺,特别是农村的市镇,这天都启用新账簿,按传统财政年度始于
本文介绍了引进加拿大50×104m3/d分子筛脱水装置的主要工艺流程、设计参数和技术要求,结合实际运行的温度、流量、露点等主要工艺参数和水电气等消耗指标,探讨了该套装
女性外阴营养不良又称外阴白色病变,是一组女性外阴皮肤、黏膜营养障碍而致组织变性及色素改变的疾病,晚期常伴有外阴萎缩、阴道狭窄和性交痛等,严重影响女性患者的身心健康。本
本文主要运用文献资料法、访谈法、数理统计法等研究方法,对10位中小学网球特长生的身体形态、参加比赛情况、训练情况、教练员情况等数据进行综合性分析,并可以提出合理的建
目的分析水针治疗中风偏瘫后肢体痉挛的临床干预意义。方法选择2015年2月至2017年12月本院收治的62例中风偏瘫后肢体痉挛患者设作实验对象,随机将62例患者分成对照组(n=31)与
结合企业对计算机操作岗位的人才需求分析,从课堂教学、考试、校内活动等多角度提出改革措施,探索增强学生的专业技能和提高学生综合素质的方法,力求中职计算机专业教学与企
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield