关联规则挖掘的相关问题研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:jyjlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域中一个重要研究方向,而频繁模式挖掘又是关联规则、时序模式挖掘等应用中的关键技术和步骤。然而,由于挖掘频繁模式内在的计算复杂性,为了提高挖掘效率,业界相继提出了频繁闭合模式挖掘和最大频繁模式挖掘问题。在规模上,频繁闭合模式和最大频繁模式均小于频繁模式。同时频繁闭合模式集可以唯一地确定频繁模式完全集以及它们的准确支持度,而最大频繁模式隐含了所有的频繁模式,并且在某些数据挖掘应用中仅需挖掘出最大频繁模式;另外,在实际挖掘应用中,由于事务数据库可能发生变化,而且用户还会调整最小支持度以满足新的需要,因此如何对挖掘结果进行更新是一个值得研究的问题;再有,针对关联规则新的度量标准—兴趣度的度量方法也是业界关心的一个热点问题。因此,对这些问题进行研究具有重要意义。本文主要研究了关联规则挖掘中的相关问题,主要包括以下内容:首先,提出了用于挖掘频繁闭合模式的FCI-Miner算法,以及挖掘最大频繁模式的BFP-Miner算法。两个算法均利用改进的FP-Tree来压缩存储数据库中的事务,并充分利用该树的特点,使得在挖掘频繁闭合模式和最大频繁模式的过程中不需产生条件FP-Tree和候选模式,从而减少了挖掘过程中使用的存储空间和计算时间,实验结果表明,算法具有较好的性能。其次,提出了用于解决最小支持度和数据库都发生变化的综合更新挖掘最大频繁模式问题的IUMFPA算法。该算法利用完全FP-Tree并通过调整最大频繁模式进行快速最大频繁模式更新挖掘,实验测试和分析表明,该算法有较好的时空效率。最后,针对当前基于支持度—置信度框架挖掘关联规则时所反映的不足,提出了一种能反映项目集之间相关性和稀有性的度量标准—兴趣度,通过其可用来发现数据库中支持度低,而置信度强和紧密性高的规则。通过实例分析说明了该度量标准在一些应用中的有效性和实用性。
其他文献
网络的融合和业务的融合为电信领域带来更广阔增值空间的同时,也为业务的生成带来更高的智能化挑战,业务作为下一代网络的关键环节受到人们的普遍关注,如何快速有效地进行新
IMS (IP Multimedia Subsystem, IP多媒体子系统)以其特有的开放、灵活的业务部署和提供方式打破了传统电路域能力上的瓶颈,IMS正在迅速地发展,其成为下一代核心网络的趋势已
随着家庭和小型办公系统的财产和电气设备不断增加,安全防范和火灾监测成为现代家庭和小型办公系统必须考虑的一个重要问题。大型的楼宇都有楼宇自动化装置,而小型的办公系统
软件测试是保障软件可靠性,提高软件质量的重要手段。随着软件规模的扩大,软件复杂性的提高,软件测试技术的不断发展,越来越多的测试人员发现传统手工测试成本高、执行繁琐、效率
移动流媒体技术是近年来研究的一个热点。随着全球3G牌照发放数量的增加,移动流媒体技术在手机中有着越来越广泛的应用,视频会议、远程监控和视频点播已经从个人电脑逐步应用到
随着我国高等教育事业的蓬勃发展,出现了一批适应时代和社会需求的高等职业专科院校,随着高职类院校办学规模的不断扩大、人数的快速增长,普遍存在着跨校区办学的状况。由于
构件库是支持大量软件构件统一形式化包装、分类描述、存储管理、检索浏览的构件复用基础设施,构件库支持大规模软件复用,能大幅度提高软件生产效率,降低成本。随着构件库相
随着移动设备的普及,人们积累了大量的轨迹数据。基于轨迹的路径推荐算法成为热点的研究问题。频繁路径算法(MFP)是经典的路径推荐算法之一,它通过轨迹重构权值图,以每条边被
随着WWW网上可利用信息呈现爆炸性的增长,人们发现快速有效地访问相关信息正变得越来越困难。对于网站的设计者来说,如何适应用户的访问需求来调整网站的内容与结构,也是一个
作为三网融合(triple play)的标志性应用之一,IPTV正在全世界范围内迅速发展。IPTV具有大带宽,实时性强的特点,对IP网络的要求很高,而IPTV承载在“尽力而为”的IP网络上。在