【摘 要】
:
数据库知识发现(KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列模式发现算法需要多次扫描数据库,挖掘所
论文部分内容阅读
数据库知识发现(KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列模式发现算法需要多次扫描数据库,挖掘所有的频繁序列,时间开销较大。在实际应用中,最小支持度的设置是一个敏感问题。为此,本文针对以上关键问题进行研究,主要工作如下:(1)提出一种基于统计方法动态确定最小支持度的算法NewGSP。传统的序列模式发现算法中的最小支持度需要人为来设定,具有一定的局限性。NewGSP采用采用统计方法,动态地确定最小支持度,压缩候选序列集。理论分析及实验表明NewGSP较传统的序列模式发现算法在时间和空间性能上具有一定的优越性。(2)提出一种基于图结构发现闭合序列模式的新算法G-CloSpan。挖掘闭合序列集合能在保持信息完备性的前提下,比挖掘频繁序列全集更加精简有效。G-CloSpan算法仅需扫描一次数据库,将与挖掘任务相关的信息映射在频繁2序列图(F2SG)中,通过位置信息来计算支持度,不必反复扫描数据库,从而减少搜索空间,提高了闭合序列的生成效率。理论分析实验表明,该算法较传统的闭合序列模式发现算法在时间和空间性能上具有优越性。(3)基于上述研究,实现了序列模式发现的原型系统SeqDM,从理论和实验上证明了所提出的算法的正确性和有效性。
其他文献
45°旋转扫描反射镜是目前最成熟、最常用的光机扫描模式,在卫星遥感器上有着广泛的应用前景。但是由于45°旋转扫描反射镜在扫描过程中会产生像旋,直接采用该扫描方式在应用
情感计算是国际上近几年刚刚兴起的、试图使计算机能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能人机交互中起着重要作用。由于人的面部表情是情
基础云服务(IaaS)以其减少性能开销,提高资源利用率的优点已经成为云平台服务以及云软件服务的重要支撑。虚拟化是实现IaaS的核心技术,然而由于云服务应用需求,托管的虚拟机
随着工业生产的发展,工业生产过程日趋复杂化,工业控制系统的开发成为工业生产中一个非常重要的部分。但传统的工业控制系统存在着软件水平不高、质量不好的问题,因此优秀的
事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取
随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够对其进行更高层次的分析,以便
作为一种编程模型,MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前,MapReduce已被广泛地应用于Web搜索,机器学习,电子商务等领域。Hadoop,作为MapReduce的一
TTCN-3是一种全新的、灵活的、强有力的测试描述语言,可用于描述在多种通信端口上的各种响应系统的测试,它使得在软件开发领域中使用一个标准化的抽象测试描述语言成为可能。
随着互联网的飞速发展,互联网上的信息飞速增长,用户要从网上查阅到感兴趣的内容变得越来越艰难,传统的搜索引擎技术已经难以满足用户的需要。在这种背景下,个性化推荐系统应
UDDI(Universal Description,Discovery and Integration)统一描述、发现和集成,是一套基于Web的、分布式的、为Web服务提供信息注册中心实现的标准规范,同时也包含一组企业