基于情节规则匹配的数据流预测研究

来源 :复旦大学 | 被引量 : 3次 | 上传用户:lzt870702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、数据库和嵌入式技术的飞速发展以及现实应用需求的持续推动,一种被称为数据流的全新数据类型已广泛应用在传感器数据处理、网络安全监控、金融证券管理、事务日志分析等众多领域。与传统数据库截然不同,由一系列值对(事件类型,时间戳)构成的数据流具有高速、无界、连续、时变的特点,这些特点使得面向传统数据库的数据挖掘算法难以直接应用到数据流的分析中。作为数据流分析的重要任务之一,数据流预测在面临巨大挑战的同时也迎来了前所未有的应用机遇,并已成为学术界和工业界的研究热点。本文在总结国内外相关研究工作的基础上,针对数据流预测涉及的频繁情节挖掘、频繁闭情节挖掘、无冗余情节规则抽取、情节规则匹配等四个关键问题展开了深入探讨,形成了一个数据流预测的研究体系,主要贡献包括:1.提出了一个事件序列上的频繁情节挖掘算法MANEPI。频繁情节刻画了现实应用中用户或系统的行为。现有的频繁情节挖掘算法大多基于最小发生或非重叠发生来计算一个情节的支持度,容易导致情节发生的“过计数”问题或不能很好地刻画一个情节中事件类型之间的紧随关系。另外,这些算法均采用了与Apriori算法一样的广度优先搜索策略,需要多遍扫描事件序列,并且产生了大量的候选情节。然而,算法MANEPI基于最小且非重叠发生的概念来计算一个情节的支持度,并采用深度优先的搜索策略,只需单遍扫描事件序列且不产生任何候选情节。此外,MANEPI利用情节的Apriori性质避免了不必要的情节增长,进一步缩小了频繁情节的搜索空间。理论分析和实验评估证明MANEPI具有较高的挖掘效率和挖掘质量。2.提出了一个事件序列上的频繁闭情节挖掘算法FCEMiner。频繁闭情节集是所有频繁情节的一个无损压缩表示。尽我们所知,Clo_episode[58]是目前仅有的一个频繁闭情节挖掘算法。尽管只需单遍扫描事件序列,但是Clo_episode采用了广度优先的搜索策略,在挖掘过程中产生了大量的候选情节。另外,该算法基于最小发生来计算一个情节的支持度,也会导致情节发生的“过计数”问题。然而,算法FCEMiner采用了与MANEPI一样的搜索策略和支持度定义来发现频繁情节的简约且完备集,并利用特殊前向扩展的非闭一致性避免了冗余的闭合性检查,进一步缩小了频繁闭情节的搜索空间,加速了挖掘过程。理论分析和实验评估证明FCEMiner能够高效地发现事件序列上的频繁闭情节。3.提出了一个事件序列上的无冗余情节规则抽取算法Extractor。情节规则描述了频繁情节之间的因果关系。现有的情节规则抽取算法主要存在三个问题:第一,基于滑动窗口或最小发生来计算一个情节的支持度,致使频繁情节的挖掘质量不高;第二,直接由频繁情节产生情节规则,导致规则数量过于庞大且存在冗余;第三,尽管利用一些修剪技术来筛选冗余的情节规则,但这种后期的修剪处理增加了算法的时间代价。然而,算法Extractor采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭情节及其生成子,保证了频繁闭情节及其生成子的挖掘质量和挖掘效率;利用非生成子情节的Apriori性质,避免了冗余的生成子判断;直接由频繁闭情节及其生成子来产生无冗余情节规则,提高了情节规则的生成质量和生成效率。理论分析和实验评估证明Extractor能够有效抽取给定事件序列上所有的无冗余情节规则。4.提出了一个数据流上基于情节规则匹配的预测算法Predictor。研究历史流数据的潜在规律并应用这些规律对未来流数据作出预测,能够为许多现实应用提供重要的决策支持。现有的数据流预测算法大多采用回归分析或规则匹配的方法。回归分析方法预测速度快,但只适于线性数据预测;规则匹配方法可预测线性和非线性数据,但存在规则形式严格、预测区间受限或过时、规则过于匹配等问题。然而,算法Predictor使用无冗余情节规则作为待匹配规则,保证了待匹配规则内涵的代表性和形式的一般性。预测时Predictor为每个情节规则分别使用了一个自动机,通过单遍扫描数据流来同时跟踪这些自动机的状态变迁,以搜索每个规则前件最近的最小且非重叠发生,这样不仅将无界的数据流映射到有限的状态空间,而且避免了对情节规则的过于匹配。另外,Predictor预测的结果是未来多个情节的发生区间和发生概率。理论分析和实验评估证明Predictor具有较高的预测效率和预测精度。综上所述,本文针对数据流预测涉及的频繁情节挖掘、频繁闭情节挖掘、无冗余情节规则抽取、情节规则匹配等四个关键问题展开了深入探讨,并提出了有效的解决方法,理论分析与实验评估表明本文提出的算法对于推动数据流预测的研究具有一定的理论意义和应用价值。
其他文献
男性包皮切除是一个古老的手术,近十几年来的文献均对男性包皮切除术后相关的社会-文化概念进行了社会学、人类学、人种学多方面的研究。但对于包皮切除的心理学动机以及男性
对等网络应用自出现以来,发展非常迅速,引起了学术界和工业界的广泛关注,因此,对对等网络的研究一直非常活跃。非结构化对等网络是实际应用中大量部署的对等网络应用,所以对
Web服务(Web Services)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务复合(Services Composition)通过组合现有的Web服务从而创建新的、高层
脑组织缺血后形成的急性脑梗死病灶是由中心坏死区及其周围的缺血半暗带组成,病灶中细胞坏死与细胞凋亡并存,细胞凋亡主要出现在缺血半暗带内,及时恢复缺血区的血供,挽救保护半暗
目的分析在胃癌患者的护理当中,分阶段护理的实际效果。方法选择我院2018年1—12月收治的58例胃癌患者,将其随机均分成参照组与分析组,分别给予常规护理与分阶段护理,对两组
随着电子信息技术取得飞速发展,电子文件作为一种数字化信息,从其产生、处理、传递至整理、保管、利用等各个方面都向档案界提出了一系列新的课题。本文就电子文件的特性、电子
体育档案就是在从事与体育相关的各项活动中形成的有保存价值的各种文字、图表、声像等不同形式的历史记录,主要包括体育机构行政管理类文件、优秀运动员档案、大型运动会档案
随着我国职业教育的快速发展以及国家对高素质技术技能人才的需要,提升职业教育水平必然成为我国教育事业发展的一项重要内容。高职高专院校只有守住自己的“职业”特色才能
图书馆是为社会服务的机构,联系服务对象广大读者的重要“窗口”是各个对社会开放的部门,在这些部门岗位上的工作人员的素质、工作情绪、工作状态等,直接反映整个图书馆服务工作