【摘 要】
:
粗糙集理论是一种有效的处理不精确、不一致、不完备等不确定信息的数学理论。用确定的方法处理不确定知识,不需要先验知识,可完全从数据或经验中获取知识,在机器学习、数据
论文部分内容阅读
粗糙集理论是一种有效的处理不精确、不一致、不完备等不确定信息的数学理论。用确定的方法处理不确定知识,不需要先验知识,可完全从数据或经验中获取知识,在机器学习、数据挖掘、智能数据分析、控制算法获取等领域取得了很大的成功。然而数据集特别是海量数据集中经常含有噪声,从而导致经典粗糙集分类效果不佳,甚至失败。为了解决这一问题,加拿大Ziarko.W教授于1993年提出了可变精度粗糙集理论。该理论通过引入噪音阈值β,增强了对噪音的适应性,在处理不确定信息上取得了成功。可变精度粗糙集与经典粗糙集的区别在于噪音阈值β的引入。噪音阈值β的变化直接导致了可变精度粗糙集β正域,β边界域,和β负域的变化。显然,噪音阈值β直接影响到了可变精度粗糙集理论获取知识的性能。然而,以往对噪音阈值β的设定,均依赖于先验知识,在先验知识缺乏的情况下应用受到限制。本文针对这个问题提出一种数据驱动的可变精度粗糙集噪音阈值的自主式获取方法。仿真实验结果表明,按照本文方法获取的噪音阈值β能够提高可变精度粗糙集理论获取知识的性能。另外,由于噪音阈值β的引入,可变精度粗糙集理论中决策表的约简要比经典粗糙集中情况复杂,会产生约简异常。约简的实质是粒子的合并。本文从粒子合并的角度,研究了可变精度粗糙集理论中决策表约简异常产生的原因和具体情况,并且进一步提出了一种数据驱动的可变精度粗糙集约简算法。
其他文献
无线传感器网络由大量相互协作的微小节点组成,每个节点具有有限的感知、传输和计算能力。节点以适当的方式组成网络,并将它们的感应数据有机地关联和融合时,整个网络提供的能力
软件测试是软件开发过程中一个既重要又很难实施的环节,同时它也是软件质量保证的关键步骤,是软件工程研究领域的重要内容。回归测试是软件修改后为确认修改的正确性而进行的测
可扩展标记语言(XML)是由W3C设计并推荐的新一代标记语言。XML因其优良的可扩展性、互操作性、可靠性和简便性,已在电子商务领域得到了日益广泛的应用,逐渐代替传统的HTML,促
无线信道有着不同于有线信道的特性,因此需要特别设计专门的无线介质访问控制(MAC)协议以避免无线网络中的信号冲突,并为无线网络用户提供高质量的数据传输服务。无线MAC协议的
万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年开始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统
随着互联网的普及和企业办公自动化,工作流技术已得到快速发展。工作流管理用于处理复杂事务,实现流程的自动化,工作流引擎作为核心部件控制并实现业务流程各个环节间的调度。为
互联网飞速发展,中文信息处理在获取有价值信息方面起到不可替代的作用,而中文分词在中文信息处理的过程中重中之重,又在信息检索、智能输入、自动摘要、中外文翻译文等各个领域
随着数据库技术和网络技术的发展,分布式数据库系统不仅在理论上日趋成熟,而且在网格计算、Internet应用、数据仓库等方面得到越来越广泛深入的应用。由于分布式数据库具有地
网格技术能够将分散在网络上的各种资源进行有机的整合,形成一个统一的整体,为用户提供强大的计算能力和信息服务,被认为是继Internet之后一次重大的科技进步。网格中的资源
随着网络应用对数据库的访问量日益增大,数据库管理系统(DBMS)受到了越来越多的关注。自主计算的研究解决了数据库管理系统内部资源管理的问题,但是无法解决外部负载的管理问