一种基于Spark的频繁项集快速挖掘算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:bluesnail2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark, Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.
其他文献
<正>绿水青山就是金山银山,近年来,各地坚持生态优先、绿色发展,创新生态环保监管方法和手段,扎实推进信用理念、信用制度、信用手段与生态环保各方面各环节深度融合,完善生态环保信用制度,强化信用评价结果共享运用,充分发挥信用管理、绿色金融和大数据智慧监管等绿色市场机制作用,形成政府监管、市场调节、信息公开和公众参与的有机统一。
期刊
<正>以“四个聚焦”推进社会信用体系建设2022年4月19日,国家发展改革委召开4月份新闻发布会。国家发展改革委政研室副主任、委新闻发言人孟玮表示,下一步推进社会信用体系建设的落实工作,可以概括为“四个聚焦”:一是聚焦难点堵点,促进经济循环高效畅通;二是聚焦小微融资,增强金融服务实体能力;三是聚焦承诺评价,提升信用监管综合效能;四是聚焦法治规范,夯实信用体系制度基础。
期刊
<正>镇江市氧气厂 13X-APG分子筛应用成果,1991年12月23日在镇江通过了镇江市经委组织的技术鉴定。
期刊
<正>2022年3月20日,中办、国办联合印发了《关于推进社会信用体系建设高质量发展促进形成新发展格局的意见》。《意见》基于国内大循环、国内国际双循环新发展格局,坚持全局意识和系统思维,坚持问题、目标和结果导向,紧扣当前经济社会发展各领域各环节的难点、痛点、堵点,从信用理念、信用制度、信用手段、
期刊
<正>假如把高校的气质幻化成人,我以为,北京大学是一个戴着玳瑁眼镜、穿着长衫的老夫子;浙江大学是一位身着旗袍的端庄优雅的女学者;西北工业大学是一个穿着工服、满身油污的工程师;我的母校中国地质大学(北京)(本文简称“地大”)则是一个穿着破烂迷彩服、戴着草帽,脸晒得黑黑的,一手拿着地质锤,一手拿着罗盘的小个子。从校名就可以看出,母校位于我们伟大祖国的首都—北京。为什么在校名后面要明确地标注出“北京”呢
期刊
长春建运投资有限公司是一家国有企业,在国内外市场环境中要增加自身的竞争优势,必须依赖于先进的管理学资源。作为公司的骨干,中层管理者在公司的发展中扮演着举足轻重的角色,长春建运投资有限公司成立时间不长,由于公司建设、经营方向多元化,对人才队伍特别是中层管理人员综合素质要求很高,公司目前的员工无法适应企业的迅速发展和市场的激烈竞争,无法支持公司的发展,而公司的中层管理人员是公司高层结构的一个关键环节,
目的 探讨12 mm trocar在腹腔镜低位直肠癌根治术后预防性回肠造口中的临床应用效果。方法 回顾性分析2014年3月~2021年12月我院60例低位直肠癌的临床资料,2018年1月~2021年12月30例应用12 mm trocar行预防性回肠造口为观察组,2014年3月~2017年12月30例常规造口为对照组,观察2组患者造口手术时间、造口手术出血量、术后24 h造口处疼痛数字评分(Num
本文将围绕国家近年来持续推行的国有企业混合所有制改革展开研究,从航空货运业第一家进行混改的企业东航物流入手,阐述其混改的动因与混改路径,通过将行业先进企业和东航物流的绩效变化趋势进行比较,从横向和纵向两方面分析东航物流的财务绩效和非财务绩效,并基于管理会计视角评价混合所有制改革对东航物流绩效的影响。