基于全信息熵的高维分类型数据子空间算法

被引量 : 0次 | 上传用户:gg741852963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据聚类是数据挖掘领域的重点、难点,特别是高维分类型数据的聚类。数据的稀疏性以及“维度灾难”等因素,使得传统的相似度度量方法在分类型数据之间的相似度都趋于无穷而无法计算,以至于无法对数据进行聚类。大多数分类型数据聚类算法通常是在全空间上来进行传统的相似度的度量,在实际应用中,这对高维分类型数据来说几乎是不可能完成的任务,而利用软子空间聚类方法来对高维数据聚类是最高效的、最实用的方式。高维分类型聚类分析是聚类分析的一个重要的研究分支,已在多个领域得到了很好的应用,诸如文本挖掘,mb挖掘和基因表达等  为了解决高维分类型数据的聚类问题,本文结合软子空间聚类的方式,根据高维分类型数据的特征以及特性。本文采用软子空间聚类方法,深入研究分析了信息熵及全信息熵在聚类分析中的应用,提出了一种基于全信息熵的高维分类型数据聚类算法HPCCD。该算法主要分为四个步骤:首先,根据传统的相似度将数据集划分若干子簇,即初始化步骤;接着,搜索特征子空间。由于不同子簇有着不同的特征子空间,所以子空间搜索也是高维数据挖掘领域中的一个挑战性难题。在这一步骤中,我们基于全信息熵理论提出了一种新型的特征子空间的搜索方法:先利用信息熵对属性的重要性进行评估,再利用全信息熵的特性来搜索对于子簇有意义的特征属性,从而达到特征子空间搜索的目的;然后,计算紧凑度及子簇的全并。再次利用全信息熵能够反应子簇的内部特性的性质,并结合权重的分配方法计算两合并子簇的紧凑度。搜索紧凑度最小的子簇的进行子簇合并,从而达到层次聚类的效果。最后,在Zoo, soybean等9个数据集上对提出HPCCD算法仿真实验进行分析,证实了该算法在预测准确率和性能上都有显著提升。
其他文献
社会网络异常检测(SNCD)是一门新兴的研究领域,它综合了社会学、统计学等多种不同学科的知识。利用社会网络异常检测深入理解社会网络变化对于突发事件的预防有着重要的意义。由
Internet的迅猛发展和普及为流媒体业务发展提供了强大的市场动力。流媒体技术广泛用于多媒体新闻发布、网络广告、在线直播、电子商务、远程教育、实时视频会议等互联网信息
Web服务器在当今Internet服务架构中起着重要的作用,它负责接收和处理用户发送的请求。Web服务器是否合适、高效直接决定了Internet的服务水平。所以要确保网络服务能力,首先
关联规则是数据挖掘领域一个重要的研究课题,其目的就是在数据库中发现数据项之间的隐含关联。在研究正、负关联规则挖掘的基础上,将挖掘算法应用于社保审计领域,获得隐含在
图像拼接技术能够提供宽视角而且高分辨率的图像,与使用扫描相机和广角镜头相比,不仅快捷方便成本低廉而且获得图像质量高,在视频图像拼接、虚拟现实、航空航天、视频压缩和
对于SAR图像来说,相干斑抑制、边缘检测、分割等是在SAR图像处理研究中最基础的热点内容,而SAR图像去斑又是一个最基础和最重要的问题,因为SAR图像的斑点噪声直接影响了它的
无线射频识别技术(RFID)始于二战期间,现在已经广泛应用于物流、航空、供应链、医药等领域。由于其有条形码无可比拟的优点,如自动、快速、批量、远距离等等,电子标签(射频标
一直以来,由于传统中医舌诊缺乏现代医学理论依据,主观性强,其诊断结果比较容易受医生的自我经验积累和所处环境等因素的影响,缺乏客观和定量化的依据。另一方面,由于受传统
磁共振成像技术由于具有成像参数多、分辨率高、无电离辐射损伤、可任意层面断层成像等特点而在医学上得到广泛的应用。但是,磁共振图像也具有成像时间长、软组织对比度不高
复杂网络的研究已经成为互联网、社会学、生物学等多个领域的一个基础课题。节点的聚集现象是很多复杂网络具有的一个特性,被称为簇、社团或群。语义复杂网络的聚集现象可以