论文部分内容阅读
近年来,随着我们产生和搜集数据的能力不断增强,在许多商业和政府事务中计算机的日益普及、以及在数据收集工具方面的不断进步,我们面临着大量的数据。成百万的数据库已经被用于商业管理、政府管理、科学和工程管理以及其它许多应用领域。数据和数据库的飞速增长迫切要求我们从已经拥有的大量数据中产生有用的知识或信息。因此,数据挖掘作为一种能够满足这种需求的技术,其重要性得到了前所未有的重视。 作为数据挖掘技术的一个重要分支—序列模式,主要用于捕获和时间相关的典型行为,即捕获那些重复出现从而可以用于决策的行为,由于有着很强的实用性,吸引了众多研究者的兴趣。 数据挖掘的关键在于处理大量数据、管理和维护规则的技术。为此,要着重解决以下两个问题:(1)设计有效的算法,挖掘序列模式:(2)通过有效的手段,更新、维护已发现的序列模式。并且第2个问题与第1个问题的工作一样是非常重要的。现在己经对第2个问题的工作做了大量的研究,提出了一些维护算法,然而这些算法都是在最小支持度不变的假设下来解决序列模式的更新问题。实际上,在序列挖掘过程中,最小支持度需要不断调整,才能从统计意义上挖掘出真正有效的序列模式,达到用户所需的目的。所以当数据库不变时,也同样存在着序列模式的更新问题。本文结合序列模式的研究现状和最新动态,提出了一种增量挖掘功能的高效序列模式挖掘算法IASP算法;IASP算法将每次扫描数据库获得的候选频繁集和它的支持度计数保存在一个数据库中,从而避免当新的支持度计数大于前次支持度计数时扫描数据库,降低了数据库扫描的频率,改变了传统算法当支持度调整时需要每次扫描数据数的弊端。 接着,结合集装箱制造企业日常业务的实际情况,研究和设计了数据挖掘模型JZX—MINER。该模型具有以下两个特点: 1.建立在数据仓库系统之上。论文介绍了数据仓库的一般理论和开发方法,并对开发数据仓库的建模技术——信息打包和雪花模型进行了改进和优化,提出了层次实体、类别实体和层表、类表、详细信息表的概念。2.在构建集装箱制造企业数据仓库的基础上,根据工ASP算法设计面向集装箱行 业的数据挖掘模型。并且结合实例,运用该数据模型获得集装箱销售趋势和 特殊规律的信息。 数据挖掘模型以大型集装箱制造企业为行业背景,可应用于不同领域的零售 行业。