论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。近年来,国内外学术界和企业界,都非常重视对数据挖掘技术和软件工具的研究和开发,也取得一些成果。 关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系的规则(例如“同时发生”或者“从一个对象可以推出另一个”)。关联规则的简单表示形式是:X→Y,X称作规则的前提,Y是规则的结果。通常,对于一个规则的衡量有两个标准:支持度(support)和可信度(confidence)。挖掘关联规则的问题就是找出这样的一些规则:他们的support和confidence分别大于用户指定的最小support和最小confidence限度。这个问题的主要挑战性在于数据量巨大(数据库容量达到若干GB字节,甚至TB字节),因此算法的效率是关键。目前研究的重点是如何找出large itemset,围绕这个问题,R.Agrawal等在1994年提出了Apriori算法,它是一种经典的频集方法,但是Apriori算法也存在一些固有的缺陷:①多次重复扫描数据库,增加了挖掘过程中I/O操作的次数,加重了CPU的负担,影响计算效率。②无法对稀有数据进行分析。 本文首先从理论和应用两个角度分析了Apriori算法的局限性,并且针对该算法的不足,设计了一种新的算法,新的算法:①将可信度放在首位,能够对稀有数据进行分析。②扫描数据库一次,将数据库中的交易信息转换成位图结构体,以后的挖掘都以该位图结构体为基础,这样就避免过多地扫描数据库,减轻了系统的I/O负载,获得较好的计算效率。 然后,根据新的挖掘算法,结合超市日常零售业务的实际情况,设计了面向超市行业的数据挖掘模型SM-MINER,在挖掘模型SM-MINER的实现过程中,运用支持多平台的JAVA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等。 最后,总结出设计挖掘算法和挖掘模型的方法,为将来超市行业数据挖掘系统的设计和研究提供了一种新思路。 SM-MINER挖掘模型以大型超市为行业背景,功能完善,操作简单,可扩展性 基于关联规则的数据挖掘模型一SM.MINER的设计与实现强。同时,SM--MINER挖掘模型在H次开发上并不受行业限制,通过分析具体的行业领域数据,本模型完全可以应用到银行、保险、气象等其它行业中。