【摘 要】
:
近年来,数据挖掘作为一门正处于蓬勃发展期的学科,其应用已经渗透到了许多领域并且在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等方向上取得了丰硕的成果
论文部分内容阅读
近年来,数据挖掘作为一门正处于蓬勃发展期的学科,其应用已经渗透到了许多领域并且在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等方向上取得了丰硕的成果。子树挖掘作为一种半结构化的数据挖掘问题是数据挖掘领域中一个较新的分支,它在生物学、Web数据分析和化合物结构分析等许多领域都有广泛的应用前景。本文对子树挖掘的基本概念、研究现状和一些典型算法进行了较为深入的讨论和研究,在此基础上提出了一种新的基于合并和连接的频繁子树挖掘机制和相应的算法。首先提出了子树挖掘算法CCTree-Miner(Combination and ConnectionTree-Miner)。与基于最右路径和前缀等价类等模式扩展方法不同,算法主要通过合并具有相同根结点的子树和连接频繁二项树的叶结点与频繁子树的根结点来生成不确定大小的候选超模式,同时提出了相应的剪枝策略。通过分析证明了CCTree-Miner挖掘结果的完整性和正确性。其次,提出了用于挖掘封闭式子树模式的CTMiner(Closed Tree-Miner)算法。该算法是对CCTree-Miner的扩展,在合并和连接中加入了更有效的剪枝策略和检测机制来提高算法的效率。同时本文对CTMiner算法的实验结果进行了分析并提出了下一步工作的内容。以上两种算法只需对数据库进行一次扫描,并且保证所有被扩展的候选模式至少在数据库中有一次出现。
其他文献
随着网络的发展,网络与计算机越来越广泛地应用于现今社会。电子银行、电子商务等网络服务正在悄悄地进入人们的生活。随之而来的各种网络攻击在不断地增加,人们也渐渐地认识
部件化物体分割是面向深度图像建模与识别的关键步骤。在多物体场景中,物体之间因相互遮挡而产生采样数据部分缺失的现象。本文研究并设计了超二次曲面边缘对缺失部分数据的
近年来,越来越多大容量、高质量的流媒体文件出现在互联网上。这种流媒体文件在网络中传输不仅传输时间长,而且代理缓存难度大。于是研究人员提出了各种改进代理缓存结构的思
多Agent系统(MAS)及其相关技术近年来受到越来越多的研究者的关注。它不仅已经被广泛运用到了Internet、办公自动化、冲突协调、决策支持、开放式信息系统等众多领域。并且它
随着现代通信技术和计算机技术的飞速发展,尤其是互联网的迅猛发展,各种网络服务已经渗透到了人们生活的各个领域,一方面给人类生活带来巨大的便利和好处,另一方面也带来了前所未
机器翻译是自然语言处理的一个重要课题,随着互联网的发展,社会越来越需要找到一种快捷的方式沟通不同语言的人群。美国国家标准技术研究院(NIST, National Institute of Sta
随着现代通信技术和计算机技术的迅速发展,数据量每天都在以几何级的速度增长,同时用户对通信质量和数据传输速率的要求也在不断提高。由于通信信道固有的噪声和衰落特性,信
计算机和网络技术的普及,在给人们的生活带来极大便利的同时,也将安全隐患传播到整个网络。正是由于网络的普及率越来越高,一旦发生有目的、大规模的网络入侵行为,造成的影响
图可视化是使用计算机图形技术辅助用户理解图结构的理论和技术。图可视化的基础是图布局算法,是指将图结构嵌入几何布局空间的算法。在图布局算法中,布局空间的选择会影响图可
在过去几十年里,计算机动画一直是人们感兴趣的研究领域。随着虚拟现实和计算机动画技术的发展,加之服装CAD和试衣系统等领域的迫切需要,计算机动画的一个重要组成部分---布