不确定数据流中频繁模式挖掘算法的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:absyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、大数据以及物联网等技术的迅速发展,数据的存在形式发生了变化。在许多实际应用中,产生的数据大多数以数据流的形式存在,如网页搜索日志数据、传感器网络数据、气候环境监测数据、金融交易数据以及通信记录数据等等。此外,由于数据采集技术不断进步,数据流中采集到的数据往往呈现出不确定性,即数据的出现通常伴随一定的概率。传统的频繁模式挖掘算法大多数都是针对确定性数据,包括确定性的静态数据和确定性的动态数据流,而针对不确定性数据流的频繁模式挖掘算法还尚未成熟。除了具有传统数据流的无限性、快速性、实时性等特点,不确定性数据流还有数据的不确定性问题需要迫切解决,这导致难以在不确定性数据流上直接使用传统的确定性数据流频繁模式挖掘算法,并且传统的概要数据结构不能够对不确定性数据进行高效的存储。因此,有必要设计优化的适合不确定性数据流的概要数据结构,并且在此基础上提出有效的不确定性数据流频繁模式挖掘算法。本文对不确定性数据流频繁模式挖掘中存在的问题进行了详细介绍,分析了当前该领域一些经典算法的优缺点,提出了一种基于滑动窗口的不确定性数据流频繁模式挖掘算法BSUF-mine。该算法设计了一种符合不确定性数据流特点的概要数据结构,该结构能够高效的对不确定性数据流的概要数据信息进行存储,并且能够有效的提高频繁模式挖掘的时空效率。此外,针对项集期望支持度计算中存在的问题,本文加入了数据项权重因素的考虑,在BSUF-mine算法的基础上,提出了一种改进的频繁模式挖掘算法WBSUF-mine。该算法能够有效的挖掘出长度较长的频繁模式,保证频繁模式挖掘结果的完整性。本文的主要工作包括:(1)本文详细介绍了不确定性数据的相关理论,包括不确定性数据的产生原因、表现形式及处理模型;并且对频繁模式挖掘领域的经典算法的优缺点进行了分析和讨论,包括不确定性数据频繁模式挖掘算法、确定性数据流频繁模式挖掘算法、不确定性数据流频繁模式挖掘算法。(2)针对不确定性数据流频繁模式挖掘算法SUF-growth存在的概要数据结构压缩程度低,在内存中会产生大量冗余节点的问题,设计了一种高压缩程度的概要数据结构BSUF-stream,并提出了一种有效的不确定性数据流频繁模式挖掘算法BSUF-mine,详细介绍了该算法的主要思想和所釆用的概要数据结构BSUF-stream,并且从内存消耗、时间消耗和可扩展性三个方面与SUF-growth算法进行了对比实验。实验结果表明,BSUF-mine算法能够有效的减少内存中冗余节点的数量,获得较高的内存利用率和时间效率。(3)针对在计算项集的期望支持度时采用对数据项概率进行简单相乘的方式,没有充分考虑数据项的权重因素而丢失长度较长的频繁项集的问题,结合BSUF-mine算法,提出了一种有效的不确定性数据流频繁模式挖掘算法WBSUF-mine,详细介绍了该算法的主要思想和所采用的概要数据结构WBSUF-stream,并且从内存消耗、时间消耗和频繁模式的分布情况三个方面与BSUF-mine算法进行了对比实验。实验结果表明,WBSUF-mine算法能在保证合理的内存开销和运行时间的前提下,有效的挖掘出长度较长的频繁模式,提高频繁模式挖掘结果的完整性,从而满足某些应用场景的实际需求。
其他文献
PDF格式以其生成快捷、高度仿真和高压缩率等优点逐渐成为局域网环境中通用的电子文档格式。与此同时PDF文档格式的安全性问题也日益引起人们的关注。Adobe公司提供的标准口
随着信息社会的发展,信息安全已成为一个关系到国家的政治稳定、社会安定等的一个全局性问题。而访问控制是信息安全保障机制的核心内容,它是计算机系统最重要的安全机制。它通
红外图像增强技术是ART(自动目标识别)及红外成像目标跟踪系统中重要的预处理技术。红外图像普遍具有对比度、分辨率低,噪声大等特点,不利于后续的识别、跟踪应用,因此,红外
目前,随着校园网络用户个性化需求的日益增长,网络信息服务的使用从集中统一型向分布式个性化演进,校园网络中的用户有着各自的上网习惯和兴趣,各用户使用网络的时间、服务及
Ad Hoc网络是由一组带有无线收发装置的移动终端组成的一个多跳的临时性自治系统,网络中的移动终端具有路由和报文转发功能,不需要任何基础设施就可以通过无线连接构成任意的网
随着科学技术的发展与物联网时代的到来,无线传感器网络(Wireless SensorNetwork,简称WSN)越来越受到人们的关注与重视,被广泛地应用到各个领域,在国防和科研两方面体现的尤为明
学位
Web应用技术在商业、工业、教育等领域所产生的深远影响,使得Web应用测试方法也越来越受到重视。将用户会话数据直接应用于Web测试,使得测试过程与真实数据结合起来,避免了模
传统运动融合仅处理相同角色的运动数据,已有运动数据库无法得到充分复用。为了突破动画角色的骨架结构限制,合成更加丰富多样的运动数据,提出一种面向异构骨架的角色运动融
现在我们处在信息急速爆炸的时代,这时候很难做到为用户提供符合心意的有用信息。因为搜索引擎的出现,用户减少了部分信息过载压力,但存在结果单一性问题,无法提供差异性的可