频繁子树挖掘及其在XML挖掘中的应用研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:zoxn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘领域中的一个重要问题,其研究范围包括事务、序列、树和图。频繁子树挖掘在生物信息学,Web挖掘,化合物结构分析等领域具有十分重要的应用价值,因此受到研究人员的高度重视。XML己经成为Intemet上数据描述和交换的标准。如何从XML数据中挖掘有价值的知识是一个具有挑战性的研究课题。本文就频繁子树挖掘方法、最大频繁Embedded子树挖掘、基于可变支持度约束的最大频繁Induced与Embedded子树挖掘、以及频繁子树挖掘在XML挖掘中的应用等方面作了深入的研究。本文的主要研究工作包括以下几个方面:(1)对近些年来提出的频繁子树挖掘算法进行综述与分析。论述了各种频繁子树挖掘算法的思想,并对典型算法的性能进行了实验分析与比较。(2)提出了一种高效的最大频繁Embedded子树挖掘算——CMPETreeMiner,该算法采用带节点范围的先序遍历序列存储树,并采用伪投影技术对频繁子序列进行投影,对投影序列中的每个节点编码。在挖掘带编码频繁子序列过程中使用剪枝技术尽早删除最终不能通过投影编码生成最大频繁Embedded子树的带编码频繁子序列.大大降低了搜索空间,节省了时间与空间的代价。实验结果表明CMPETreeMiner具有较高的效率。(3)提出了快速挖掘可变支持度约束的闭合与最大频繁Induced子树算法——SCCMTreeMiner,采用最右扩展技术枚举候选子树,并利用最小有效扩展性质进行剪枝,在变化的支持度约束下求出所有闭合频繁子树以及最大频繁子树。实验结果表明,SCCMTreeMiner算法不仅能够有效地减少所产生子树的数量,而且在执行时间上也大大少于使用固定支持度的同类算法。(4)提出了快速挖掘可变支持度约束的闭合与最大频繁Embedded子树算法——SCCMETreeMiner,通过对频繁k-子树的每个增长点构造投影数据库,将投影数据库中的频繁节点添加到频繁k-子树上直接得到频繁(k+1)-子树,无冗余的构造了Embedded子树的增长空间。并利用最小有效扩展性质进行剪枝,得到所有满足约束的闭合频繁子树以及最大频繁子树。实验结果表明,其不仅执行时间少,最关键的是,得到了用户感兴趣的模式。(5)提出了一种基于频繁子树模式的XML文档结构聚类算法——GCFS。该算法采用基于后退的先序序列表示XML文档树,挖掘XML文档集合中的闭合与最大频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法聚类XML文档。实验结果表明,GCFS不仅能够得到维数较小的聚类特征空间,而且在聚类效率和精度上也高于同类算法。(6)提出了一种改进的XML文档结构聚类算法——GCFS*。该算法通过挖掘XML文档集合中的最大频繁Induced子树构造聚类特征空间,在频繁子树挖掘过程中自动生成较好的最小支持度,无需用户设置:优化聚类特征空间:并采用CLOPE算法聚类XML文档,聚类过程中自动生成簇的个数。实验结果表明,GCFS*不仅取得了较好的聚类效率,而且其聚类精度较GCFS高。
其他文献
由于互联网的高速发展以及搜索引擎的技术限制,目前搜索引擎的查询信息很难覆盖到整个网络。有调查表明,现有搜索引擎所返回的查询结果往往不符合用户的查询需求。如何真正以用
在计算机游戏中,玩家与游戏对象的交互是通过手动编写脚本程序实现。计算机游戏具有复杂且有深度的故事情节,因此游戏的脚本程序实现起来很复杂。通常游戏故事的作者是无法完
近年来,随着电子技术、无线通信技术和嵌入式技术的快速发展,造价低、功耗低和功能多样的传感节点应运而生,无线传感网络技术在环境监测、工业、医疗等领域越来越受到广泛的
随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用
目前工作流技术已经成为计算机应用领域的研究热点。但是在传统的工作流生命周期中存在着一定问题,建立的过程模型往往不能与实际过程完全相符,为了更好的对工作流过程进行历史
科技发展的脚步越来越快,人类已经置身于信息时代。而作为信息获取最重要和最基本的技术——传感器技术,也得到了极大的发展。传感器信息获取技术已经从过去的单一化渐渐向集
在现代企业中,存货不仅品种繁多,而且占用了企业大量的流动资金。因此,进行合理的库存管理,尽量在各种存货成本与存货效益之间做出权衡,达到两者的最佳结合,对现代企业的生产经营是十分重要的。物品的变质是影响库存策略的重要因素,这也是在研究变质性物品库存策略时必须考虑到的,物品的变质导致物品质量和数量发生变化,每次订货如果不考虑变质这一因素就会使现有库存满足不了实际需求,导致服务水平下降。而且物品的变质也
伴随着因特网发展,随之而来的是其不断扩充的规模、日益增加的复杂性以及成倍增长的带宽。但是人们对它的认识还远远不够深入,网络测量在这样的情况下应运而生,本文通过对网
随着网络经济时代的到来,市场网络化,消费个性化和多样化,生产需求客户化,生产方式变成了单件、小批量、多品种,技术资源可分布全球,竞争要素变成产品的柔性和响应的速度。于
网络一方面能为人们提供许多便利条件,但另一方面,Internet的开放性也带来了很多安全方面的问题。目前,网络安全技术主要用到防火墙技术和入侵检测技术。防火墙技术是一种不