改进的模糊C均值聚类与连续属性离散化算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:kaida111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续属性的离散化是数据挖掘理论中重要的研究内容之一,有监督离散化没有考虑属性之间的相容性,对最终的效果造成一定的偏差,无监督离散化对分布不均匀以及含有噪声的数据集十分敏感。在现实世界中,很多数据之间的分类界线是非常模糊的,很难断定一个数据具体属于哪个类别。在没有先验知识的指导下,人为的将数据集进行划分,不但破坏了数据之间的相关信息,而且最终得出的结果也无法令人信服。针对传统模糊离散化算法对噪声数据敏感和忽略属性之间相关性等缺陷,对模糊C均值聚类和连续属性的离散化进行了研究,主要工作如下:(1)针对模糊C均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,给出一种基于大密度区域的模糊聚类DCFCM算法。该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性。最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果。(2)在上述基础之上,给出了一种基于DCFCM的软划分离散化算法。该算法利用决策表中决策属性对条件属性的相容性原理作为评判标准,对算法参数动态调整,达到优化的离散化效果。通过UCI和天文光谱数据,实验验证该算法的有效性。
其他文献
该文用符号化方法对带有不等名测试算子π-演算模型中开观察同余关系进行了深入研究.主要的工作包括以下三方面:1.参照Fu和Yang关于弱开互模拟的非符号化定义,给出相应的符号
该文首先分析了嵌入应用系统的主要特征和需求,提出嵌入式实时操作系统必须保持灵活性以适应千差万别的环境,同时具备可预测性以保证满足事件约束.然后,根据操作系统的分层模
该文分析了钢铁企业产成品发货物流系统管理流程、系统目标、影响因素及约束条件,提出了基于企业原有信息系统开发决策支持系统的开发原则、关键技术及其解决方案,对决策支持
DVB体系的应用起始于直播卫星系统,后来逐渐被有线电视系统采用,由于Internet的崛起,有人开始了基于Internet的DVB系统的研究,可是Internet带宽低,错误率高,这些Internet网络固有的
论文从入侵检测技术的基本原理入手,讨论了它与防火墙系统的不同以及它们在网络安全防范中的互补关系,介绍了当前重要的网络安全攻击与防范技术,分析并研究了国际上几种代表
知识获取是一个与领域专家、专家系统建造者以及专家系统本身都密切相关的复杂问题,由于各方面的原因,至今仍然是一件相当困难的工作,被认为是专家系统建造中的一个“瓶颈”问题
在蓝牙测试实践一章中作者对自己从事的蓝牙测试工作进行了总结,着重阐述了蓝牙协议BB、L2CAP、GAP、SDP的一致性测试结构、测试结构中测试点的设置、测试案例所测试的功能、
该文通过对VR的理论研究,建立了以智能推理技术为基础的VR模型,并选择了专家系统实现模型中的智能推理技术.论文详细分析了VR中知识的类型、表示及获取,在此基础上建立了VR的
随着互联网的出现,产生了许多新的电信应用,多媒体通信也有了较大的发展,电信网、计算机网与电视网之间的三网融合也早已克服技术上的问题,而这3者之间的业务也随之互相渗透,随之
该文作者借鉴了许多国内外专家学者的理论和研究成果,从人类理解语言的根本出发,重视概念知识在文本分析过程中的作用,提出了一种基于特定领域的知识表示模型和文本分析方法.