基于统计密度的流数据频繁模式挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：guanyinchashe

【摘要】

：

目前大部分流数据挖掘方法都是从基于静态数据集的数据挖掘方法改进而来的。并且秉承了基于静态数据集的数据挖掘的理念将数据存于可控制范围内，并在此范围内进行数据挖掘，因此

【作者】

：

高强

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2013年期

【关键词】

：

统计密度流数据挖掘频繁项集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前大部分流数据挖掘方法都是从基于静态数据集的数据挖掘方法改进而来的。并且秉承了基于静态数据集的数据挖掘的理念将数据存于可控制范围内，并在此范围内进行数据挖掘，因此这类流数据挖掘方法的思想是将一部分流数据存在本地，然后在基于这部分数据进行挖掘工作。但是这种思想并不完全适合用在流数据挖掘上面，也就是说现在的大多数基于滑动窗口，界标窗口的挖掘方法存在其固有的缺点，即只能以窗口内的数据为基础来进行挖掘。这样就不可避免的忽略了流数据的时间波动特性。还有一个缺点就是因为有存储设备的限制，窗口的大小受到限制，这样即便使用对流数据有一定兼顾的衰退窗口机制也同样不能彻底解决流数据的历史特性问题。针对这些缺点，本文基于统计数据密度分布特性提出了一种比较适合流数据的挖掘方法，称为PDB-FIM(Probability Density Based Frequent Item-set Mining)。算法PDB-FIM通过维持两棵流数据信息树的方式记录了当前感兴趣项集的频繁信息和密度分布信息，并且在查询到达时通过对记录信息的处理和挖掘输出维持数据中的频繁模式。这种方法有以下几个特点：占用内存少，兼顾历史数据性好，对数据的波动性敏感等。下面是本文涉及的主要内容：首先，本文提出了算法PDB-FIM维持主存平衡的方式通过密度信息和支持度信息剪枝的双重策略达到贮存使用的动态平衡，并且通过维持两棵信息树的方式将感兴趣项集的信息保存到查询到来以前。其次，本文还介绍了完全信息树和不完全信息树的概念，并且采用通过保持一棵不完全信息树和一棵完全信息树的方法节省内存加快算法的速度。同时还提出了其他可行的方案并分析了这些方法的优缺点。第三，本论文介绍了一种密度信息的提取、处理、计算和使用的方法，这也是本文的一个创新的地方。最后，本文还做了算法PDB-FIM和经典流数据挖掘算法CFI-Stream的比较实验，结果表明在查询频度合适的情况下不但单个项集处理时间被大大缩小，并且能够对过期频繁的数据进行剔除。

其他文献

防范XSS攻击的体系架构研究与实现

伴随着Web2.0技术的发展，越来越多的用户更喜欢使用功能丰富、交互性强并且实用性良好的Web应用程序。它允许接收用户的输入值，并将用户输入的值与后台数据库进行交互。然而，如

学位

跨站点脚本漏洞文档对象模型(DOM)Web应用程序防范架构

基于高层体系结构的实时分布式仿真平台关键技术研究

计算机仿真作为计算机技术的一个重要应用,实际上经历了一个由简单到复杂、由单机到分布式、由同构到异构的一个发展过程。从以往的单独对某一局部的仿真到今天的对某一应用

学位

高层体系结构分布式仿真平台任务调度容错调度

基于Spark的遥感影像多时相变化检测系统

近年来随着各种新型的传感器不断涌现,遥感技术的提升,我国的高分辨率遥感卫星技术取得了飞速地发展,高分辨率遥感影像的数据级别趋于海量化发展,数据类型也越来越多样化。海量的遥感影像数据带来更多信息的同时也给快速处理带来了很大的挑战。由于卫星周期性旋转的特点,同一个地区在不同时间将会被卫星拍摄到很多次。通过检测同一地区不同时间影像发生的变化,有利于发现该地区地面覆盖变化情况。变化检测算法根据影像分析的层

学位

遥感影像多分类多时相变化检测Spark

两类生态传染病动力学系统模型的分析与研究

众所周知,自然界中种群并不是孤立存在的,它们时刻与其它的生物种群存在着相互竞争关系,合作关系以及捕获关系,通过结合种群生态学与传染病动力学建立的生态传染病动力学模型

学位

生态传染病模型动力学系统疾病控制时滞作用

基于SAT的长距离无线mesh网络管理平台

长距离无线mesh网络LDmesh（Long-Distance wireless mesh networks）因其成本低、带宽高、覆盖广、易于部署的特点，在偏远地区的远程医疗、远程教育以及野外大区域的环境监控等领

学位

LDmesh网络SAT网络管理

基于MIDI哼唱检索算法的研究

随着多媒体技术的发展，以音频、视频和图像信息为主体的多媒体信息逐步取代了文本信息。基于文本标记的传统信息检索技术难以实现对多媒体信息的检索，如何有效、快速地检索多媒

学位

哼唱检索音符切分动态时间规整MIDI音高

基于图文法的作战系统模型一致性研究与实现

随着计算机软件技术的不断发展，计算机软件已广泛应用于国防建设的各个领域中。然而，很小的软件错误也可能导致整个系统的崩溃。在作战系统中，模型的不一致将导致执行过程中产生

学位

作战系统一致性检测属性图文法需求分析冲突依赖

基于时空金字塔稀疏编码的动作识别

基于视觉的人体动作识别是模式识别、计算机视觉和图像处理等多个学科的交叉研究课题，在人机交互、基于内容的视频检索、运动视频分析和智能视频监控等领域有着深远的理论研究

学位

动作识别稀疏编码时空金字塔支持向量机视觉词视觉词典

递推技术在算法设计中的应用研究

算法是计算机科学的灵魂，算法的研究是计算机研究的重要领域之一。算法的可靠性、正确性和生产效率一直是算法设计领域中的关键问题，受到各国学者的高度重视。基于递推技术的算

学位

算法设计方法递推技术程序规约递推关系

基于Curvelet变换的嵌入式人脸识别算法研究

美国“9.11”事件后，人们迫切需求一种快速有效的身份验证技术以确保系统安全和公共安全，基于人脸识别的身份验证方法的出现给人们带来了希望。人脸识别比其它人体生物特征身份

学位

嵌入式人脸识别ARMCurvelet变换2DPCA加权融合

基于统计密度的流数据频繁模式挖掘

其他学术论文