高维类别数据集的粗糙聚类算法的研究与应用

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:WHBGODWHBGOD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要技术之一,所处理的数据分为数值型、类别型和混合型。针对数值型数据,聚类算法已经取得了非常卓越的成果。而对于类别数据,由于不能进行传统意义上的几何距离计算,所以有很多问题需要解决:比如,设计合理的差异度函数,探求有效的聚类初始化机制。大数据时代出现了高维海量数据,其属性个数达到几十、几百乃至上千个,它们通常具有不完备、不精确、不一致性等特征,传统聚类算法很难满足这些数据的聚类需求,但是,不断丰富的数据带来了更多有价值的信息。如何从高维数据中发掘到有用的信息,已成为当今聚类分析领域最前沿的研究课题;其中,设计高维数据下的"距离"度量成为一项严峻的任务。针对高维聚类,目前最为常见的方法主要有维度约简和子空间聚类。维度约简是解决高维数据聚类分析的特别有效的方法,降维方法主要包括特征变换和特征选择,特征选择是数据挖掘中常见的降维技术。到目前为止,对类别型数据的初始化问题研究较少,如果初始类中心选择的不合理,不仅得不到最佳的聚类簇,还会增加算法的复杂度。特别是高维类别数据,初始类中心的选择尤为重要。目前仍然没有一种被广泛接受的针对类别数据的初始类中心选择算法。因此,为高维类别数据聚类提出一种初始类中心选择算法是非常必要的。经典粗糙集的扩展模型,能够很好地处理不完备的、不精确的、有噪声的数据集。将扩展粗糙集方法运用到高维不完备的数据集的处理中,已经取得了一些很好的聚类算法。针对以上提出的问题,本文运用扩展的粗糙集模型——限制容差关系,对高维不完备的类别数据进行特征选择、设计聚类算法,主要工作包括以下两个部分:(1)针对高维类别不完备数据的特征选择:使用限制容差关系扩展粗糙集模型,重新定义信息熵以及条件信息熵,构造基于条件熵的高维类别不完备数据的维度约简算法CEHDAR。(2)基于加权重叠距离和加权平均密度的初始类中心选择算法:在算法中,我们使用限制容差关系的信息熵定义属性重要度,进而定义各属性的权重。在计算对象间的距离和对象的密度时,不同的属性被赋予相应的权重,从而体现不同属性对聚类贡献的不同。实验证明,相比于现有的聚类初始化方法,WDADI算法是最优的。然后,在UCI数据库的数据集上运行,证明了这种改进算法的有效性。
其他文献
随着金融和保险市场的发展,风险理论已经成为金融数学和保险精算中的重要研究方向之一,金融风险管理是指公司利用金融工具来管理其风险,金融风险可以用一定的数学模型来量化,金融
渝中区道门口太华楼二巷2号,这是一栋两层建筑,具有典型的清末建筑风格,采用两进式、小瓦坡屋顶,进门是天井、过厅,后院是一个由天井围成的四合院。  大院始建于明末清初,风水历来被世人称道,初建时的大院可以直接看到长江,夏天也是江风习习,只可惜,解放后屋主跑到台湾去了。房子收归国有,分配给了棉麻站。棉麻站先是把原来资本家的高屋大房用板子隔成许多小间当旅馆,后来又当宿舍分配给职工。在楼道里生火做饭,建筑
格路问题是组合数学经典的模型问题之一,是计数组合学中经常研究的对象和一类重要的组合结构。成熟的格路理论体系为其他学科如生物信息学、计算机科学、结构化学等的发展和研
本文主要介绍了两种带变指数Laplace算子的二阶Hamilton系统,分别是带p(t)-Laplace算子和带(q(t),p(t)-Laplace算子的二阶Hamilton系统.利用临界点理论中的极小作用原理和鞍点
钟万勰院士将弹性力学和无穷维Hamilton算子相结合,提出了基于Hamilton系统的分离变量法,建立起弹性力学求解新(辛)体系,解决了许多实际问题.此方法的数学基础是无穷维Hamilt
加强党的执政能力建设,核心是保持党同人民群众的血肉联系,基础在群众。公众信任是一个政党能否长期巩固执政地位的“基石”,赢得群众普遍拥护和广泛信任是我们加强党的执政
在南滨路慈云寺后的那一带老街名叫“黄家巷”,两旁青砖高墙森然,零星有几栋中西合璧别墅分外惹人注目,这就是重庆著名富豪黄锡滋避暑大院。在解放前重庆知名的本埠几大家族里,一个靠盐号暴富,并涉足煤矿、航运的富豪家族,黄锡滋的名声鹊起。见证了当年大家族的沉与浮。  20世纪初,黄锡滋集资数万两白银,开办“天锡生”商号,经营布匹、棉纱、油盐、山货等,生意越做越大。十年后,再创办福记航运部,购置3艘轮船跑川江