基于概念格扩展模型的分类问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:martelfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘与数据库知识发现(Knowledge Discovery in Databases,KDD)是当前涉及人工智能、数据库、统计学等学科的一门相当活跃的研究领域,是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类(Classification)是数据挖掘领域的一个重要研究分支,分类首先要构造分类器,并对依据分类器对新数据进行类别预测。有关分类问题的研究中,较著名的决策树构造算法是J.R.Quinlan于1986年和1993年提出的ID3和C4.5算法。 概念格通过概念的内涵和外延及泛化和例化之间的关系来表示知识,因而适用于从数据库中挖掘规则问题的描述。在概念格的内涵中引入等价关系并将外延量化表示,可得到概念格的扩展形式,可以更清晰的表示概念内涵之间的关系,更有利于知识提取。本文研究基于概念格的这种扩展形式的分类问题,并提出面向分类的概念格的剪枝方法。基于这种剪枝后的格结构(分类剪枝格)挖掘的分类规则在规则质量等方面具有良好的性能。面向分类问题的剪枝方法,一定程度上简化了格结构,加速了分类规则的提取过程。本文对决策树和概念格扩展模型两种分类方法从理论和试验两方面进行了比较,结果证明,基于概念格扩展模型的分类方法具有一定的优越性。然而,由于概念格的完备导致了格结构规模的庞大,一定程度上制约了其应用。 当前数据量和数据类型以及分布式数据库的不断增长给数据挖掘领域提出了新的挑战,对概念格模型来讲,研究这一问题具有更重要的现实意义。为此,很多专家学者提出,将并行、分布式计算环境引入数据挖掘领域,形成了新的研究课题。本文将分布式数据挖掘的思想引入概念格的分类过程中,提出分布式概念格的分类,以提高分类的时间效率。这种方法不仅适用于大规模的集中式数据库,同时也能用于处理异构、分布式的数据库,具有很好的研究前景。
其他文献
车辆牌照的自动识别是数字图像处理技术与模式识别技术在交通信息系统中的重要应用。随着交通管理信息化的快速发展,车辆牌照识别技术已经成为当前研究的一项重要课题。由于现
随着地理信息系统(Geographic Information System,简称GIS)应用范围的不断扩大,发展WebGIS,实现地理信息的网络化是当前的迫切需要.基于WebGIS的发展现状,研究利用下一代分
本文介绍了一个基于Linux和XIM协议的输入法服务器Zhhzinput的设计与实现,并以纵横汉字输入法为实例,具体介绍了如何在Zhhzinput上实现一个输入法。 首先给出了课题背景和课
随着信息时代的发展,电子信息产品已经成为现代化信息社会文明与进步的标志,人们对它们的需求也逐年增大.从上世纪90年代以来,电子信息类产品的开发明显出现了两个特点:一是
在计算机网络和信息的安全防护方面,防火墙是最基本,也是最有效的网络安全设备,其往往是多种网络安全技术的集中体现.访问控制技术、策略管理技术、审计管理技术、认证技术、
从Napster到Gnutella再到BitTorrent,迄今为止,对等网络的发展在短短的几年内已经发展到了第三代。BitTorrent缩写为BT,中文译作“比特湍流”,作为一种革新性下载工具,BT吸纳
实时应用领域的应用需求以及CORBA技术的良好特性和成功的应用经验催生了实时CORBA技术.将CORBA技术引入实时应用领域,可以充分发挥CORBA技术在分布处理软件开发和集成方面的