关联规划挖掘算法的研究

被引量 : 4次 | 上传用户:simba_m
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,企业为了提高效率和竞争力就必须致力于在所有业务领域的数字化。在业务的数字化过程中产生了大量的数据。从分散的数据中提取有意义的信息是非常有用的,数据挖掘技术就是为了发现数据库中的有用的信息而产生的新技术。数据挖掘包括关联规则、聚类和分类等几个分支,而关联规则是其他分支的基础,也是应用最广泛的一个。关联规则挖掘主要包括挖掘数据库中的频繁项目集和生成关联规则两个过程,其核心也是最繁杂的是挖掘数据库中的频繁项目集。关联规则挖掘是通过运用挖掘频繁集的算法先得到频繁项目集,进而由频繁项目集生成关联规则。挖掘频繁项目集一直都是关联规则的研究热点,挖掘频繁项目集的经典算法是Apriori算法。该算法的优点是易于理解并且能够挖掘出所有的频繁项目集,但也存在着许多缺点,主要有:(1)需要多次扫描数据库,造成庞大的I/O开销;(2)生成的候选2一项集的个数过于庞大;(3)连接和剪切的过程过于复杂。很多学者基于Apriori算法提出了很多改进的算法,主要的改进方式有串行方式和并行方式。随着数据量的增大并且数据一般都是分布式的,因此并行算法越来越受到研究人员的关注。但是以前的并行算法都存在处理器负载不均衡的情况。本文在对Apriori算法和其改进算法的研究基础上提出了负载均衡的分布式并行Apriori算法(DPApriori)。本文的主要工作如下:首先介绍了数据挖掘和关联规则的基本内容,然后详细介绍了挖掘频繁集的Apriori算法及其改进算法。针对经典算法及其改进算法的缺陷提出了DPApriori算法,该算法的基本思想是首先改变了交易数据库中事务和项目的对应关系,一般的改进算法都是看数据库中包括哪些项目,而DPApriori算法是看对某个项目,它存在于哪些事务中,记录的是事务的TID。然后在连接和剪切过程中运用一些性质和定理优化了这个过程的操作。最后在做分布式处理的过程中通过对项目赋予权值,然后再根据权值把项目分配到各个处理器上,这样可以实现良好的负载均衡。通过这些措施整体上提高了算法的效率。最后通过在多种条件下的实验进行比较和分析得出该算法具有较高的效率并且实现了良好的均衡负载。结果表明本文所提出了DPApriori算法具有极大高效性和适用性。
其他文献
汞在自然界中分布及其广泛,在人类生产生活中起着重要的作用,但汞也是对人类和其居住环境最具危害的元素之一。环境样品中汞含量虽很低,但由于汞的化学稳定性和迁移转化,同时经食
农村作为一个独立的文化意象出现在影视作品中,表征出与城市完全不同的文化体系。在王全安的《图雅的婚事》中,导演通过影像语言表征了其在现代化进程下,对农村传统文明与现
家庭作为社会的组成部分,作为孩子人生中的第一个学校,使家庭教育成为人们日益关注的话题。本文以《早熟》和《朱诺》两部讲述高中生早恋生子的电影作为案例来探讨中美家庭教
1目的通过回顾性对比分析膝关节镜下游离骨软骨块摘除术与切开复位可吸收软骨钉内固定术治疗髌骨骨软骨骨折的早期临床疗效,为髌骨骨软骨骨折选择治疗方法提供现实临床依据。2
一、引论 郑观应17岁从中山到上海“学贾”,其后任英商宝顺洋行、太古洋行的买办。37岁为北洋大臣李鸿章札委津沪电报局总办,并在上海创设机器织布局、造纸局、船坞、开垦公
背景:非创伤性股骨头坏死(non-traumatic osteonecrosis of the femoral head, non-traumatic ONFH)是一种慢性、渐进性疾病,并最终导致关节塌陷、继发性关节炎,具有较高的致
目的探讨MIPO钢板(minimally invasive percutaneous plateosteosynthesis MIPPO)与带锁髓内钉(interlocking intramedullarynail IIN)治疗胫骨骨折的疗效差异。方法:计算机检索
1回顾1.1原油6月份,国际油价环比下跌.尽管下旬市场预期"减产联盟"将延长减产协议、美伊紧张关系升级、中美贸易关系转好,支撑国际油价有所反弹,但因前期油价下跌幅度较大,月
骨关节炎(osteoarthritis, OA)是一种常见、多发的退行性病变,但病因迄今尚不明确。现认为是通过一个复杂的遗传,代谢,生化和生物力学因素的相互作用,激活炎症反应,包括软骨、软骨
研究背景:开颅手术患者在术中及术后发生出血不止的现象并非罕见,其发生与手术对血液凝血及纤溶系统的影响密切相关。开颅手术被认为是一种预期的脑外伤,而凝血功能异常是颅脑