间隔事件流上的频繁情节挖掘方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:kaixin314159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们需要分析处理越来越多的数据,而这些海量数据的背后隐藏着大量的人们所需要的规则和知识,数据挖掘就是随着人们的这一需要应运而生的。虽然最近几十年对数据挖掘技术的研究已经很成熟,但随着RFID. Sensor等EDGE (Electronic Data Gathering Equipment)设备的广泛应用,出现了大量的事件流数据。传统的数据挖掘技术往往针对静态数据进行处理,对这种事件流数据不适用。频繁情节挖掘是事件流挖掘领域中的重要方面。目前对频繁情节挖掘的研究主要针对静态数据和点事件类型的数据,但是在真实情况下,对事件流的处理往往比静态数据更有意义,而且事件的发生很多是带有时间间隔的,不可能完全按照点事件类型进行处理。本文针对这些问题,提出了在具有时间间隔的事件流上进行频繁情节挖掘的算法,可以有效地把事件流和时间间隔事件结合起来解决。首先,对于时间间隔事件,提出了基于关系元组的表示方法,它可以有效的区分出滑动窗口内所有的频繁情节,避免了传统的对有时间间隔事件处理时,丢失情节的情况。但是基于关系元组的表示方法还存在一些问题,所以在此基础上本文又提出了基于矩阵的表达方法,它可以使用户清楚的了解所挖掘出的频繁情节的内部关系。其次,因为我们日常生活中接触的事件类型往往是有间隔的,即事件需要持续一段时间后才结束,而现阶段的挖掘方法都不能处理这种间隔事件。所以本文提出了一种关系线索树和B+树相结合的方法,它可以对事件流中的间隔事件进行频繁情节挖掘,可以构建并有效地存储事件流中滑动窗口内的所有情节,也避免了对源数据的多次扫描。最后,本文在此基础上提出了一种基于线性链表的深度优先算法,它采用深度优先构建线性链表的方法,针对最小发生情节,采用一种最小误差系数的修剪方法对滑动窗口内的情节进行修剪,在一定程度上减少了时间和空间代价的消耗。通过实验可以发现,本文所提出的针对具有时间间隔的事件流上的频繁情节挖掘算法可以很快地对新到来的事件进行处理,并挖掘出滑动窗口内的所有频繁情节。
其他文献
优化是人们在科学研究、工程技术和经济管理等诸多领域中经常碰到的问题。其目的是找到使目标函数达到最小或最大的条件。已有的许多优化方法在处理人们所面对的复杂问题时,
扩散曲线是一种图像矢量化的新方法,它可以保留传统位图在色彩上丰富的优点也具有矢量图方便修改,方便存储以及可以任意放大缩小而不失真的优点。是一个比较新颖而又具有实际
脑机接口是在人脑与外界环境之间建立不依赖于常规脊髓与外围神经的通讯系统,从而实现脑与外设的直接互联,这种新型的交互方式又可称为脑机交互。脑机交互研究具有复杂的交叉
搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检
随着网络上丰富且可用的评论资源不断增加,针对观点分析和观点挖掘的研究应运而生。它们针对这些来自网络上对产品或社会问题的公众评论的文本资源进行研究,并从中抽取和总结
无线传感器网络是一种新型的网络,它集成了传感器、嵌入式计算、网络和无线通信四大技术,它的节点可以相互协作地监测、感知和采集各种客观世界的信息,并对其进行处理,再传送
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。
随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文
移动通信领域的飞速发展,3G在中国正式商用一周年,使手机应用领域得到了巨大的发展。3G推动了BREW平台在手机终端应用领域的飞速发展,也推动了与人们日常生活息息相关的移动
随着Internet的发展,传输层单穴的端到端通信协议如TCP.UDP在传输性能、容错性和安全性等方面皆受到了极大的挑战。传输层多穴的端到端通信协议如基于SCTP的同时多路传输CMT(