论文部分内容阅读
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课题,概念格是一种擅长描述层次关系的有效工具,因此,研究概念格的基本理论以及将其应用于知识发现有着非常重要的意义。以概念格为工具来实现序列模式发现是当前数据挖掘领域的一个新的研究热点。本文对基于概念格的序列模式发现的方法展开研究。本文主要就此领域的相关问题展开系列研究,主要工作和创新点如下:详细讨论了序列模式的基本模型以及经典的发现方法,展现了序列模式发现研究领域的应用前景及所面临的挑战。综述了概念格的基本理论以及经典建格算法,并讨论了以概念格模型为核心来组织数据结构和算法以实现序列模式挖掘的基本方法和策略。提出了两种新的概念格的扩展模型,一种是以序列数据库中频繁项集为节点的基于兴趣度的序列概念格模型,并引入了序列的兴趣度,以方便在此基础上挖掘出用户感兴趣的序列模式。另一种是序列模糊概念格模型,它是把精确的序列数据库背景转化为模糊的序列形式背景,并定义了模糊序列概念的Galois闭包连接、序列模糊概念及序列模糊格结构,最后给出了序列模糊概念格的渐进式构造算法。由于传统的序列模式发现算法需要多次扫描数据库,因而时间开销较大,并且所挖掘出的所有的频繁序列整个过程缺乏针对性,时间代价高,结果数量巨大且难以理解。为解决此类问题我们提出两种基于概念格的序列模式发现算法,一种是基于兴趣度的序列概念格的最大序列模式挖掘,一种是基于序列模糊概念格的序列模式挖掘。通过实验表明,在序列概念格模型上可以方便有效地挖掘重要的序列模式,算法在时间与空间上都具有良好的性能。