基于关联规则挖掘算法的相关技术研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ganyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业的发展,人们获取数据和知识的手段已趋向于多样化。人类拥有的数据量越来越庞大,在这些数据量的背后可能隐藏着大量我们感兴趣的信息,如何有效的挖掘这些信息成为一个亟待解决的难题。而数据挖掘技术使人类摆脱了这一难题,它融合了数据库、数理统计、机器学习、模式识别和人工智能等各种学科,可以从大量的、无规律的、有噪音的数据库中提取事先未知的信息和知识,被广泛的应用于各个领域,而关联规则挖掘技术是其中最活跃、研究最为广泛的课题之一。自R. Agrawal等人在1994年提出基于Apriori的关联规则挖掘算法之后,诸多学者开始对关联规则挖掘问题进行了大量的研究,并提出了许多改进算法。本文对关联规则问题进行了详细的分析和阐述,并详细的研究了其中一个经典算法FP-growth算法。FP-growth算法的应用范围最广,它把事务数据库压缩.到一个FP-树进行处理,相对Apriori算法来说,最大的优点是不需要产生候选频繁项集且只需要两次扫描数据库。但是它仍然存在一些问题,比如需要产生大量的条件FP-树、不能有效的挖掘大型数据库等。本文针对的FP-growth算法的缺点做了如下改进:通过对事务数据库的约简,减小了第二次扫描数据库时的数据量;对项头目表的存储结构做了改进,添加了一个基于哈希表的辅助表,可以提高对项头目表查找的时间复杂度;构造逆向的FP-树并修改逆向FP-树的结构,可以节省逆向FP-树所占的存储空间。并给出实验结果和性能分析,证明改进算法的正确性和高效性。最后针对现有的FP-growth算法不能有效的挖掘大型数据库的问题,本文结合了数据库压缩技术(抽样与划分)与本文改进算法的优点,提出了一种改进的快速挖掘模型,它可以快速的挖掘海量数据库并尽可能高的保证结果的精确度,是本文以后将要研究的重点。
其他文献
模型驱动架构(Model Driven Architecture,MDA)是由OMG定义的新一代以模型为中心的开发方法学。基于MDA的软件生命周期就是以模型为载体并由模型转换来驱动的过程。MDA的核心
现代社会是一个高度交互的社会,身份鉴别己经渗透到日常生活的每一个方面。借助身份标识物品(如钥匙、证件等)和身份标识知识(如口令、密码和暗语等)的传统身份鉴别方法已不
本文是苏州某管理部门开发的“虚拟太湖流域”项目中的一个子课题,主要内容是在PC (Personal Computer)平台上模拟出视角在湖面下观察到的水下视觉效果。水下场景以其复杂性
随着计算机和网络的广泛普及,它已经应用到了社会的各个行业中,计算机的软件系统也在日新月异地改革。尤其是隶属软件工程中软件维护阶段的软件再工程就更为重要,原因是以前
入侵检测是近10余年发展起来的一种动态的监控、预防或低于系统入侵行为的安全机制。主要通过监控系统、网络的行为、状态以及系统的使用状况,来检测用户是否越权使用以及系
目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像
随着信息技术的迅猛发展和网络的不断普及,像图像、视频、音频等这类多媒体信息已经成为人们信息沟通中不可或缺的方式。人们在网络上可以轻松方便地下载、传播各种数字产品,
随着人工智能的浪潮兴起,智能聊天机器人成了人们研究的热门,人们希望机器像人一样思考,与人类对话,并成为人类的帮手。在聊天机器人中,一类重要的机器人是私人助理机器人,或
微电子技术的迅速发展促进了片上系统( SoC)的出现,集成电路的发展随之进入了一个新的发展时期。SoC的设计技术是从“集成电路”级设计到“集成系统”级设计转变的结果,其设计是
互联网中P2P应用的流行,网络蠕虫和僵尸网络的泛滥,严重威胁互联网的正常运转。使用流量分类方法标识出互联网中各种应用的具体分布,可以帮助运营商按需配置优化网络,限制P2P