基于时序模式的数据挖掘算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:tofomy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘相关的研究领域越来越热门,除了关联规则的挖掘外,也有学者致力于探讨时间因子的关联规则,大致可区分为消费者购买行为分析、网页浏览分析,以及时间趋势分析等。而在探讨消费者购买行为的时间序列,多借着候选序列的产生及验证,以渐进的过程来产生频繁模式,然而验证的过程必须重复扫描数据库,也因此造成系统沉重的负担而导致效率不佳。 由于时序数据模式可以看作是关联规则考虑时间因素后衍生出来的,所以论文先介绍关联规则,对关联规则的经典定义给出了详细地描述。数据挖掘系统的效率问题是数据挖掘研究的重要内容之一。经典的关联规则Apriori算法在空间和时间的复杂性上,有着难以避免的局限性,本文引入了一种基于FP—树的频繁模式增长算法,在中间过程中不需要产生候选项的算法,从而避免了反复扫描数据库时在时间上的开销。 但是,基于时序数据的FP-树算法在数据库中的项目较多,并且含有大量事务时,内存空间的开销很大,当内存不能装入所有模式映射信息时,算法将难以有效地工作。本文为了在时间和空间上寻求平衡点,提出以邻接矩阵频繁模式FPAM来记录时间序列的顾客群,利用邻接矩阵来记录数据库中项目的频繁项集,进而生成需要的频繁模式。本文使用一种基于邻接矩阵的频繁项集和频繁模式的产生方法,可以大大减少扫描数据库的次数,可以使系统的性能得到改善。这样就可解决项目数量与内存空间的矛盾,达到时间和空间的平衡。
其他文献
信息安全是网络应用中不可避免的问题。在现代网络环境下,计算机网络应用更加广泛,安全问题也就更加迫切。为了避免企业因敏感信息的泄漏而遭受损失,需要采用两个基本手段:防止未
上世纪90年代以来,计算机网络技术得到突飞猛进的发展,在各个行业中都得到广泛的应用。远程教育是计算机网络和多媒体技术相结合的新一代教育技术。利用远程教育,广大受教育
网络内容监管系统主要是对互联网上的非法信息进行监管。本文设计并实现了一种层次分类结构中基于局部信息的语义倾向性识别算法。该算法通过对关键字的局部上下文信息采用HM
嵌入式系统是把计算机直接嵌入到应用系统中,它融合了计算机软硬件技术,通信技术和半导体微电子技术,嵌入式设备已经越来越多地应用在现代人的工作和生活中,它在当今的应用正
随着计算机应用领域的不断扩大,互联网络技术的高速发展,工业界和学术界越来越关注基于Web的应用系统的安全性,对应用系统安全性的研究也逐渐成为软件工程领域的一个重要课题。
随着教科网的飞速发展,身份认证作为信息安全的第一道保障越来越重要,各种应用系统各自独立的身份认证存在弊端。而现有的统一身份认证系统应用集成能力及整合能力不足,不适合在
实时系统和其它一些动态环境经常会产生大量的(可能无穷的)流数据,如本文中我们研究的电话网中的话务数据。这些数据由于量非常大从而不能在磁盘上进行存储或多次扫描。我们
合成孔径雷达(SAR)产生大量的数据需要由卫星线路下载到地面来进行分析,处理与存储。数据量的巨大与通信线路容量的限制使得数据压缩成为一项必然的选择。早期的压缩技术由于
形式化方法对提高软件的正确性、可靠性意义重大,可大幅度减少软件的后期维护费用,但由于设计周期和人员素质的限制,以及使用形式化符号系统进行证明推理是一项相当困难的工作,形
基于特征的软件产品线开发方法已经得到广泛应用。同时,如何正确并合理地处理特征对应用实现的影响也值得深入研究。一方面,软件产品线的特征之间存在依赖关系,这使得实现特