分布式关联规则挖掘算法的研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qdmarie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和计算机网络技术的广泛应用,许多大型数据都以分布式形式存储在分布的数据库中,如何从分布的数据库中挖掘有价值的知识是一个具有挑战性的研究课题。关联规则挖掘是数据挖掘的核心任务之一,它在政府、金融、电信、保险业、市场营销、异常监测、网络安全、科学决策等方面具有十分重要的应用价值,因此受到研究人员的高度重视。本文就提高分布式关联规则挖掘算法效率,降低挖掘过程的通信代价,建立高效智能的分布式关联规则挖掘模型,实现基于分布式数据挖掘的财政决策分析系统等问题进行研究,主要体现为以下几个方面: 1、提出基于频繁闭项集的FCDM算法。对数据挖掘中经典的数据结构FP-Tree进行深入的研究,并基于堆栈技术对FP-Growth算法进行改进,提出了VFP-Growth算法,该算法能避免原算法需要对每个后缀模式递归构造FP-Tree的开销;在VFP-Growth算法的基础上实现对频繁闭项集的挖掘,提出了V-Close算法,该算法可在保留完整频繁信息的前提下,采用自下向上搜索的方式进行剪枝,从而较大比例地压缩挖掘产生的项集数,节约存储空间;最后,在上述两个算法的基础上,提出了基于频繁闭项集的FCDM算法,该算法在局部站点采用V-Close算法来发现局部频繁闭项集,并设立一个主站点进行频繁闭项集的交换和项集全局支持度的计算。实验表明,该算法比传统的分布式关联规则挖掘算法FDM的计算效率有较明显的提高,加速比明显增快。 2、提出基于抽样技术的D-Samlpling+算法。该算法通过计算1-项频繁距离的抽样策略来修正用于抽样计算的样本,使得样本能更准确代表数据库的整体特征,接着提出了一个可根据挖掘结果进行动态自适应调整的估计频繁项阈值,提高了挖掘过程的智能控制程度;算法中还提出一个分布式站点抽样过滤策略来对某些局部站点产生的估计频繁项集进行过滤,进一步裁剪掉部分估计频繁项。算法在局部站点使用VFP-Growth对样本进行挖掘产生估计频繁项集,在主站点通过元学习法对各局部站点产生的估计频繁项进行再学习来产生全局频繁项。实验证明,该算法比传统的分布式抽样挖掘算法D-Sampling的计算效率有所提高。 3、提出一个基于MAS和知识库的分布式数据挖掘模型。该模型根据所承担任务及功能的不同,分别定义并实现了用户界面Agent、数据挖掘Agent和决策Agent,各种Agent之间采用基于合同制的通信协作模式,通过招投标方式来确定挖掘任务的承担者;模型中引入了知识库的概念,充分利用已有专家知识来指导挖掘过程,在启动挖掘任务时,采用先验证后挖掘方式对挖掘请求进行验证,产生挖掘结果后则使用中断协调器在知识库中对挖掘结果进行检查,从而保证挖掘结果与已有知识更好地融合;模型还提出一个基于分类权重的知识集成方式,将各个局部站点产生的规则进行分类后,按站点重要程度不同给予加权后再进行整合,从而使最后产生的规则更好地反映实际应用的要求;最后,给出一个分布式数据挖掘模型的工作流程,该流程能充分融合已有知识,发挥MAS的智能性,挖掘效率高、可扩展性好。 4、将分布式关联规则挖掘算法和模型应用到当前电子政务的重点研究项目财政决策分析系统中,给出系统的设计和实现,介绍了财政部门预算主题的关联规则挖掘过程。
其他文献
传统的信息安全技术在网络系统中的应用提高了系统的安全性,同时存在如安全信息过量、误报和漏报现象较为严重等不足之处。网络安全事件管理技术是近年兴起并迅速发展的一项新
当前互联网上的多媒体数据呈现“大规模”和“跨媒体”的特性,即海量的不同类型数据(如文本、图像、视频等)之间存在着天然的语义上的关联关系,它们从不同角度表达统一的高层语义
传统电信网络已经无法满足互联网的需求,运营商开始通过网络功能虚拟化(Network Function Virtualization,NFV)转型。在NFV中,虚拟化网络功能(Virtual Network Function,VNF)运行
在无线传感器网络中,传感器节点的能量往往是受限,因而,降低传感器节点的能耗、延长网络的存活时间一直是无线传感器网络研究中的一个热点问题。给传感器节点安装多种异构的无线
网格信息服务主要负责网格环境中的信息发现、注册、查询和修改等工作,提供对网格环境中各种信息的一个真实、实时的动态反映,是网格的重要组成部分。信息服务的基础则是元信息
随着计算机网络的普及应用,基于网络的空间信息资源正日益丰富,其应用领域也在快速地拓展,以满足全社会各行各业对空间信息的需求。大量的空间信息资源需要通过空间分析等分析过
近些年来,由于因特网的迅猛发展,网络环境和分布式系统日益普及,为企业、政府、机关、学校提升信息化层次提供了良好的条件和机遇。它们纷纷开始进行信息系统的建设。诸如办公自
龙芯系列处理器是中国科学院计算所自主开发的,基于MIPS指令集的高性能通用CPU。由于指令集的限制,在龙芯处理器上运行的是基于MIPS的Linux操作系统及应用软件。龙芯处理器为了
本论文研究了超深亚微米(VDSM)层次集成电路中的瓦连寄生效应,时间延迟以及串扰噪音等互连特性。文章介绍了双大马士革集成互连结构中的多种互连寄生参数提取技术,并利用多层金
随着网络的迅速发展,搜索引擎成为了人们掌握知识的利器。但目前搜索引擎存在覆盖范围小、精度低、智能程度低和缺乏个性化等缺点,无法面对专业领域高质量的信息检索服务的要