关联规则在时间序列数据挖掘中的应用

被引量 : 13次 | 上传用户:bigfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是按时间次序排列的观测值的集合。时间序列分析是指对这些按时间次序排列的观测值进行分析,进而得到对实际有指导作用的结论的过程。时间序列分析方法也是多种多样,像传统的自回归模型、滑动平均模型、自回归滑动平均模型以及近年来迅速发展的数据挖掘和高阶统计量方法等等。数据挖掘作为近些年迅速发展的时间序列分析方法之一,得到了越来越多的科学工作者的关注。数据挖掘技术是从大量的﹑不完全的、有噪声的﹑模糊的、随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用信息过程。关联规则作为数据挖掘的最重要的方法之一,近些年在时间序列数据挖掘中得到了广泛的应用。旨在发现大量的数据中项集之间有趣的关联和相关联系。关联规则最经典的算法是由Rakesh Agrawal等人提出的Apriori算法。Apriori算法采用唯一的支持度和置信度进行关联规则的挖掘,这样对我们的挖掘来说存在以下问题,在支持度方面,如果挖掘的最小支持度定得较高,那么覆盖数据较少,因而一些有意义的关联知识将不能被发现。如果最小支持度定得过低,那么大量的无实际意义的数据关联将充斥在挖掘过程中,大大降低挖掘的效率和得到规则的可用性。在置信度方面,如果采用唯一的置信度,它的前提条件就是各个规则用于推理的强度非常相似,但在现实生活中这个条件很难成立。本文针对Apriori算法的不足,在分析大量的国内外关于关联规则的研究的基础上,提出了一种新型的多支持度和多置信度关联规则发现算法-平均域值关联规则挖掘算法(MT-Apriori:Mean Threshold Apriori)。此算法应用Apriori算法的基本思想,采用平均支持度和平均置信度阈值进行关联规则的挖掘,即首先采用平均支持度阈值进行频繁项集的发现,然后,根据发现的频繁项集和平均置信度阈值进行关联规则的挖掘,这样不仅可以避免Apriori算法的不足,又可以挖掘出用户感兴趣的关联规则。本文最后把MT-Apriori算法分别应用到股票、超市和医学的数据挖掘之中。实验结果显示了此算法相对于Apriori算法有了一定的改进。
其他文献
杭州湾跨海大桥是目前世界上已建成的最长跨海大桥之一,大桥主体工程于2003年顺利开工建设,2008年5月1日建成通车。为了大桥在运营期间的健康运行,采用了分段沉降监测方法对
本文主要介绍在移动互联网产品销售过程中,电信运营商如何利用管道优势采集数据,通过结合大数据技术为用户提供量身定做的个性化信息服务,在提升客户满意度的同时提高生产经
<正>一、我国港口产业发展现状从港口本身来看,我国港口近些年一直保持较快的发展势头。从临港产业来看,我国港口主要包括环渤海、长三角、东南沿海、珠三角、西南沿海等5个
针对以往对外直接投资理论存在的某些局限性,邓宁将所有权优势、内部化优势和区位优势相结合,构建起OLI模式。当这三个优势同时具备时,企业才会到国外投资。中国对东盟直接投
杜伊斯堡港是德国规模最大和功能最多的内河港口,于1716年开始建造,至今有两大港区,一是位于鲁尔河部分的内港即老港区,另一是位于莱茵河部分的外港,是目前的主要港区。
"平面的基本性质"是高中立体几何的入门课,结合一堂教学观摩课的教学设计与实践,从教学内容的调整、教学引入环节的设计、三个公理的教学序列、学生分组探究活动的组织以及课
西藏作为一个少数民族聚居地区,其民族刑事习俗不可避免地影响和制约着刑事立法、司法和民族刑事政策的制定,致使基层司法人员在习惯与规则的边缘如履薄冰。在坚持刑事法制统
在具体的思想政治课教学过程中,学生主体作用的发挥往往很不理想,与发挥学生的主体性,提高学生素质的要求很难适应。因此,需要在教学实践中,真正树立起学生主体的思想,尊重、相信学
保险法上的因果关系认定,其目的在于界定保险人的赔付责任范围,其背景是保险合同已对保险人的承保范围和除外责任都做出了规定。事实上,在保险案件中,法院在认定因果关系时,