基于增量式更新的序列模式挖掘模型JZX-MINER的设计研究

来源 :上海海事大学 | 被引量 : 1次 | 上传用户:ccc_tw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我们产生和搜集数据的能力不断增强,在许多商业和政府事务中计算机的日益普及、以及在数据收集工具方面的不断进步,我们面临着大量的数据。成百万的数据库已经被用于商业管理、政府管理、科学和工程管理以及其它许多应用领域。数据和数据库的飞速增长迫切要求我们从已经拥有的大量数据中产生有用的知识或信息。因此,数据挖掘作为一种能够满足这种需求的技术,其重要性得到了前所未有的重视。 作为数据挖掘技术的一个重要分支—序列模式,主要用于捕获和时间相关的典型行为,即捕获那些重复出现从而可以用于决策的行为,由于有着很强的实用性,吸引了众多研究者的兴趣。 数据挖掘的关键在于处理大量数据、管理和维护规则的技术。为此,要着重解决以下两个问题:(1)设计有效的算法,挖掘序列模式:(2)通过有效的手段,更新、维护已发现的序列模式。并且第2个问题与第1个问题的工作一样是非常重要的。现在己经对第2个问题的工作做了大量的研究,提出了一些维护算法,然而这些算法都是在最小支持度不变的假设下来解决序列模式的更新问题。实际上,在序列挖掘过程中,最小支持度需要不断调整,才能从统计意义上挖掘出真正有效的序列模式,达到用户所需的目的。所以当数据库不变时,也同样存在着序列模式的更新问题。本文结合序列模式的研究现状和最新动态,提出了一种增量挖掘功能的高效序列模式挖掘算法IASP算法;IASP算法将每次扫描数据库获得的候选频繁集和它的支持度计数保存在一个数据库中,从而避免当新的支持度计数大于前次支持度计数时扫描数据库,降低了数据库扫描的频率,改变了传统算法当支持度调整时需要每次扫描数据数的弊端。 接着,结合集装箱制造企业日常业务的实际情况,研究和设计了数据挖掘模型JZX—MINER。该模型具有以下两个特点: 1.建立在数据仓库系统之上。论文介绍了数据仓库的一般理论和开发方法,并对开发数据仓库的建模技术——信息打包和雪花模型进行了改进和优化,提出了层次实体、类别实体和层表、类表、详细信息表的概念。2.在构建集装箱制造企业数据仓库的基础上,根据工ASP算法设计面向集装箱行 业的数据挖掘模型。并且结合实例,运用该数据模型获得集装箱销售趋势和 特殊规律的信息。 数据挖掘模型以大型集装箱制造企业为行业背景,可应用于不同领域的零售 行业。
其他文献
软件的性能是软件质量的重要特征。软件的性能往往与软件本身的结构有着密切的联系,对于大型分布式系统而言尤其明显。由于系统结构设计不当造成的系统性能瓶颈不易发现,往往到
随着计算机性能的提高和控制技术的发展,计算机控制技术得到了突飞猛进地发展。在多数场合下,数字控制器逐步取代了模拟控制器。作为计算机控制理论的离散控制系统理论也越来越
一所学校为了保证其高水平的教学质量,必须制定一套严密、规范的教学计划,并严格执行。而课表管理是其中最为关键的一环。没有一个合理、准确与规范的课程表,整个学校的教学秩序
随着世界经济的快速发展,汽车已经成为社会生活中不可或缺的交通工具,并为人类社会经济的发展做出了巨大贡献。然而,伴随着交通运输业的发展,交通事故已成为当前各国所面临的
SaaS (Software as a Service)是在本世纪初兴起的一种新的软件服务模式,与传统的某一服务软件单独为某一客户(用户)独立开发的服务方式不同,SaaS服务提供商需要为服务的使用
在该文中我们提出了一种基于随机过程、Multi-Agent System、knowledge-based系统和地理信息系统的可扩展模型来研究城市区域拓展问题,并实现了一个原型系统SASMUG(Stochasti
随着VoIP技术的快速发展,VoIP电话的使用已从实验室走向了普通Internet用户,近几年VoIP的商业应用也已由企业级的IP PBX发展到电信级应用,为大量的宽带用户提供语音通话服务,这就
本论文在通过对旋转机械设备故障机理和特征的研究分析的基础上,结合专家系统技术和计算机技术,分析了基于Internet的远程故障诊断系统的可行性和优越性,介绍了诊断系统的Bro
随着目前安全性问题日益突出,针对Linux平台的防火墙和入侵检测系统正在逐步推向市场,伴随着这些安全产品的推出,其运行环境也成了很多软件开发者关注的焦点。为了能防止防火墙
随着Internet的飞速发展,Web的访问呈指数级增长,Web服务器的负载越来越重。Web Cluster技术的出现有效解决了大访问量情况下Web服务器负载过重问题,并使得Web系统在低投入情况