论文部分内容阅读
随着云计算、大数据以及物联网等技术的迅速发展,数据的存在形式发生了变化。在许多实际应用中,产生的数据大多数以数据流的形式存在,如网页搜索日志数据、传感器网络数据、气候环境监测数据、金融交易数据以及通信记录数据等等。此外,由于数据采集技术不断进步,数据流中采集到的数据往往呈现出不确定性,即数据的出现通常伴随一定的概率。传统的频繁模式挖掘算法大多数都是针对确定性数据,包括确定性的静态数据和确定性的动态数据流,而针对不确定性数据流的频繁模式挖掘算法还尚未成熟。除了具有传统数据流的无限性、快速性、实时性等特点,不确定性数据流还有数据的不确定性问题需要迫切解决,这导致难以在不确定性数据流上直接使用传统的确定性数据流频繁模式挖掘算法,并且传统的概要数据结构不能够对不确定性数据进行高效的存储。因此,有必要设计优化的适合不确定性数据流的概要数据结构,并且在此基础上提出有效的不确定性数据流频繁模式挖掘算法。本文对不确定性数据流频繁模式挖掘中存在的问题进行了详细介绍,分析了当前该领域一些经典算法的优缺点,提出了一种基于滑动窗口的不确定性数据流频繁模式挖掘算法BSUF-mine。该算法设计了一种符合不确定性数据流特点的概要数据结构,该结构能够高效的对不确定性数据流的概要数据信息进行存储,并且能够有效的提高频繁模式挖掘的时空效率。此外,针对项集期望支持度计算中存在的问题,本文加入了数据项权重因素的考虑,在BSUF-mine算法的基础上,提出了一种改进的频繁模式挖掘算法WBSUF-mine。该算法能够有效的挖掘出长度较长的频繁模式,保证频繁模式挖掘结果的完整性。本文的主要工作包括:(1)本文详细介绍了不确定性数据的相关理论,包括不确定性数据的产生原因、表现形式及处理模型;并且对频繁模式挖掘领域的经典算法的优缺点进行了分析和讨论,包括不确定性数据频繁模式挖掘算法、确定性数据流频繁模式挖掘算法、不确定性数据流频繁模式挖掘算法。(2)针对不确定性数据流频繁模式挖掘算法SUF-growth存在的概要数据结构压缩程度低,在内存中会产生大量冗余节点的问题,设计了一种高压缩程度的概要数据结构BSUF-stream,并提出了一种有效的不确定性数据流频繁模式挖掘算法BSUF-mine,详细介绍了该算法的主要思想和所釆用的概要数据结构BSUF-stream,并且从内存消耗、时间消耗和可扩展性三个方面与SUF-growth算法进行了对比实验。实验结果表明,BSUF-mine算法能够有效的减少内存中冗余节点的数量,获得较高的内存利用率和时间效率。(3)针对在计算项集的期望支持度时采用对数据项概率进行简单相乘的方式,没有充分考虑数据项的权重因素而丢失长度较长的频繁项集的问题,结合BSUF-mine算法,提出了一种有效的不确定性数据流频繁模式挖掘算法WBSUF-mine,详细介绍了该算法的主要思想和所采用的概要数据结构WBSUF-stream,并且从内存消耗、时间消耗和频繁模式的分布情况三个方面与BSUF-mine算法进行了对比实验。实验结果表明,WBSUF-mine算法能在保证合理的内存开销和运行时间的前提下,有效的挖掘出长度较长的频繁模式,提高频繁模式挖掘结果的完整性,从而满足某些应用场景的实际需求。