基于数据流的Top-K频繁闭项集挖掘算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着实时监控系统数据流、网络应用中的网页记录和点击流等动态的应用环境中,不断产生海量的、时序的、实时变化和潜在无限的数据流,对数据流的挖掘已经成为数据挖掘的研究热点之一,人们对数据流挖掘的各个方面进行了研究。由于有趣的关联规则是由项集推出的,因此频繁项集和频繁闭项集也是被关注的主要方面。本文就是对持续到来的事务数据流中,在衰减滑动窗口模型下,进行挖掘算法的检验进而得到最精确的近似频繁闭项集,试验证明本文提出的算法是对在线数据流的一个有效的,单遍的扫描算法。针对数据流中的top-k频繁闭项集挖掘,本文主要有以下内容:1.本文分析了数据挖掘在数据流中的应用,分析了在数据流中挖掘频繁项集的Moment和FP-stream等经典算法,以及由Hua-Fu Li提出的在数据流中挖掘top-k频繁闭项集的TKC-DS算法,从而对数据流中闭项集的挖掘有了很好的理解。2.本文提出了滑动衰减窗口机制,即在滑动窗口(SW)基础上,把其等分为b个基本滑动窗口BW,给定每个BW一个衰减因子α,使得在具有衰减因子的数据流滑动窗口上挖掘频繁闭项集有了更加准确的结果;提出支持度的更新计数方法,使得最小支持度计数随着数据流的具体情况进行增量更新,用户也不用设置支持度阈值,这样就避免了由用户给定最小支持度阈值的盲目和随机性。3.使用改进的窗口和支持度更新方法,用位向量来表示项集,并且对数据库中的项赋予权重,提出候选项集改进算法,候选项集的改进方法是由两部分组成的,即否定边界Bd-(X)和事务Td的不完全子集subset(Td),subset(Td)即是指除了已经存在于HTC中的闭项集之外的子集组成的。本文在前人研究的基础上提出了改进的频繁闭项集挖掘算法Top-k-FCI,此算法运用了基本衰减滑动窗口机制,支持度的增量更新方法进行实时剪枝,并且运用了候选项集的选择进行闭项集FCI的挖掘,在准确度和近似挖掘结果上有了很大的改进。在滑动窗口中得到精确的频繁闭项集是一项非常消耗时间和内存需求的工作,因此我们只用进行按照支持度递减的前k项top-K近似频繁闭项集的挖掘,本文进行的这些工作能够为数据流的诸多挖掘应用领域提供相应的服务。
其他文献
随着信息技术在日常工作和生活中发挥着越来越重要的作用,网络安全问题也逐渐开始成为社会中极需要关注的问题之一。根据研究发现,系统漏洞对系统安全性具有重要影响。大部分的
随着互联网的快速发展,网络安全问题日益严重,各种攻击层出不穷。拒绝服务攻击、匿名通信等给追踪攻击源、定位真实攻击流、网络监管带来巨大威胁和挑战。而网络流水印作为一
随着内网主机安全事件的频繁发生,如何防止内网资源的误用、滥用和恶用已经成为亟待解决的问题。主机的安全事件主要是由内部人员的不合法操作导致的,具有威胁大、难防御、难
信息技术和网络技术的迅猛发展为企业间制造资源的有效集成和优化配置提供了有力的技术支撑,从而使得制造企业在应对全球化经济竞争时,能够高效地集成优势资源,快速响应市场需求,这对于企业赢得市场竞争具有举足轻重的战略意义。为弥补资源管理方式的不足、实现资源的快速整合和共享,协同制造应运而生。协同制造环境中,业务过程一般都是跨组织的,通过工作流之间的交互实现任务的协同,但资源之间的依赖关系,作为一种约束,其
随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提
无线自组网(MANET,Mobile Ad hoc Network)是一种无中心的网络,它不依赖于固定的网络设施,可在有限的无线通信带宽环境下,通过移动的主机自由、快速地组网,建立动态变化的网络拓扑结
随着数据集成、电子商务、数据仓库等的兴起,数据模式匹配在上述领域发挥越来越重要的作用。但是由于数据模式的多样化、数据模式异构的复杂性,当前许多数据模式匹配方法都不能
层次交换技术作为一种新型的分组交换技术从根本上解决了Internet的先天缺陷。层次交换网中,将IP地址子域与网络层次结构相关联,IP本身包含了路径信息,交换机将一个IP数据包
随着网络的发展,为了能够有效地组织和分析海量的网页信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。在众
信息化系统能给应用的业务领域带来巨大的变革,但是随着业务领域行业的功能细化与服务全面化,伴之而来的是给相关业务领域的信息化系统开发带来了巨大的挑战,即要求系统开发人员