粗糙集理论中的连续属性离散化方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:sdvfg4gf3fg3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种数据分析理论,它善于从数据中获取知识,并能利用不确定,不完整的经验知识进行推理,能够有效地表达不确定或不精确的知识,而且其无需提供除问题所需处理的数据之外的任何先验信息,完全由数据本身出发来解决问题,这些优点极大的推动了粗糙集理论的发展。然而可惜的是粗糙集理论只能对离散的数据进行处理和分析,这大大限制了粗糙集应用的范围,也是粗糙集理论的瓶颈。在现实中,大部分数据库都含有连续数据,如果要使用粗糙集对数据进行分析处理,就必须对连续属性进行离散化,而且离散化的好坏也直接影响后面的分析和规则提取,这就对连续属性离散化提出了更高的要求。  本文主要工作有:  (1)首先叙述了离散化概念的来源,以及离散化在数据挖掘和知识发现中的必要性。然后介绍了粗糙集基本理论和粗糙集中的离散化问题。  (2)从离散化问题出现到现在,人们提出了各种离散化方法,文中总结了离散化方法的分类、评价标准和发展现状等,并分析了几种代表性的离散化方法。  (3)从模糊集理论角度出发,把离散化的选择断点问题看成是找等价关系R将论域U进行划分问题,从而将断点选择对应于寻找合适的等价关系。基于此,文中提出了一种基于模糊聚类的离散化方法,即构造各样本间的模糊相似矩阵,以截关系将其聚类,并在聚类过程中给出选择函数,由该函数在众多不同的聚类结果中选择最优结果,避免了主观因素的影响。  (4)分析了在实验过程产生过度聚类的原因,并给出了改进算法,即首先由模糊聚类对样本进行初始聚类,得出类数,并对聚类结果进行平滑处理,找到被过度聚类的类,然后由K-means聚类法根据初始得到的类数,对被过度聚类的类重新聚类。对一些实验进行了比较,得到比较理想的结果。  (5)将算法应用于安徽省经济分析中,由该算法离散后的决策表所得到的结果与现实基本吻合。
其他文献
PageRank 算法是目前被广泛应用的一种度量网页重要性的方法,它根据网页之间的链接结构来给每个网页打分。从数学的角度来解释,PageRank可以被看作是一个马尔可夫随机游走模型,
传统神经网络结构复杂,学习速度慢,运行效率低,难以解决海量数据的处理。张铃教授等在对神经网络算法分析的基础上提出基于覆盖的构造性机器学习方法,该方法根据样本自身的特
本文研究控制图针对可控过程违背独立同分布假设前提的检测性能问题,主要考虑过程存在自相关性以及异方差.为了解决过程存在自相关性问题,本文引入ARIMA模型.并结合(广义)ARCH模型,处理过程异方差问题.这类问题的研究,对控制图的使用者在有效地操作上具有现实意义.本文主要做了以下两方面的工作:第一:基于异方差过程的改良EWMA控制图.首先,讨论了过程异方差对常规EWMA控制图的影响.进一步,改良EW
摘要:桥梁架设施工是一种高空施工的高危工作,其安全施工是贯穿整个施工过程中的基本指导思想。只有保证桥梁架设施工安全进行,才能保证设备安全高效运行,也才能避免安全事故的发生。本文首先从吊车架梁、人字扒杆架梁、架桥机架梁三方面分析了常见的桥梁架设中的安全隐患,其次有针对性地提出了加强桥梁架设施工安全的技术措施,最后探讨了加强桥梁架设安全施工的管理措施。  关键词:桥梁架设;安全管理;架桥机;吊车;质量
期刊
在马氏过程构造论的许多相关著作中,对于生灭过程的构造很早就有关注。本文针对单边生灭过程,首先讨论了它的数字特征,然后讨论生灭矩阵Q所对应的极小过程的概率特征,其中的
近年来,随机微分方程被广泛应用于医学、物理、机械、通讯等许多实践领域,越来越多的学者发现它在实际生产生活中发挥着不可缺少的作用。确定性微分方程在许多科学研究中有相当
本文利用抽象群论和线性代数方法,得出了关于二次作用的一些结果。之后,本文又证明了在一定条件下,一个一般作用可以转化为二次作用。最后,本文还得出了关于A5的一个二次作用模与
本文主要研究了亚纯函数族的正规性问题.正规族是单复变函数中的一个重要的研究课题。国内外许多学者在这方面作出了大量卓有成效的研究工作.在前言中。我们对亚纯函数族的正
本论文可分为两个部分,第一部分讨论如何基于数学形态学对二值图像进行边缘检测。相比于其它空域或频域图像处理和分析方法,数学形态学具有一些明显优势。边缘检测时,本文采