论文部分内容阅读
数据挖掘技术自20世纪90年代初期开始崛起,并迅速的成为计算机理论及应用界研究的热点。如今数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、信息检索、高性能计算以及可视化等最新技术的研究成果,成功的打破了“数据丰富,知识贫乏”的局面。在数据挖掘技术蓬勃发展的过程中,人们逐渐意识到时态数据挖掘研究的必要性及其重要意义。因为时间是客观世界的客观属性,是数据的固有属性,在数据挖掘的过程中忽略数据的时态语义已然暴露出很多不足。于是诸如时态数据的模式、趋势、约束、因果关系等时态知识的挖掘得到了越来越多的研究,值得提出的是,计算机学术界对于挖掘时态关联规则给予了尤其多的关注。本文提出的是时态数据库中离散属性的带周期规律的关联规则发现方法。关于时态数据周期性关联规则挖掘的研究也有不少,其中包括连续属性的周期性关联规则提取,定制周期内时态关联规则提取等等。在这些研究成果的基础上,本文提出的方法能够计算得到时态数据库中离散属性的周期,进而通过执行改造了的Apriori算法挖掘周期性时态关联规则。本文所做的主要工作概括如下:1.在对时态数据库中的有效时间属性进行划分和标记的基础上,提出了时态数据库中离散属性的周期计算方法,并详细描述了算法的执行步骤。2.提出新的时间区间标记方法,通过划分和标记时态数据库的有效时间属性,用标记集合代替时间区间,达到有效时间区间合理离散化的目的。3.提出改进了的Apriori算法,在计算频繁项集的过程中,相匹配的项集根据其所携带的时间区间标记的不同来分别计算支持度,从而得到带时态信息的频繁项集。4.计算得到带时态信息的关联规则,结合离散属性的周期,合理解释关联规则的周期规律。5.分析本文提出的改进了的Apriori算法在性能上有所提升的主要原因。本文通过对时态数据库的有效时间属性进行两次划分和标记,有效的实现了离散属性的周期计算以及时间区间的离散化,为进一步执行Apriori算法奠定了基础。另外,本文提出的改进了的Apriori算法使得计算频繁项集的迭代过程迅速收敛,减少了扫描数据库的次数,提高了算法的执行效率。