高维数据聚类中的神经网络降维方法研究

被引量 : 11次 | 上传用户:asdfghjkc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为一种重要的用于分析数据的方法,隶属无监督范畴。简单来理解,聚类就是将不同的未标记的数据划分成多个组,使它们拥有了类的信息。随着信息技术的飞速发展,用于聚类的数据源越来越广泛,而且数据也越来越复杂,这就需要用更多的属性进行描述,从而增加了数据的维度。对于高维数据聚类,因为数据本身的特点和传统聚类算法的局限性,使得我们无法取得满意的结果。为了很好地解决高维数据的问题,对它的研究成为一个主要方向是显而易见的。在已有的高维数据聚类算法中,主要的思想是先对数据进行空间划分或者降维,然后再用传统的算法完成聚类。在文章中主要研究了与降维相关的算法。传统的降维技术一般分为线性和非线性两类。线性方法只在少数情况下效果是理想的,由于多数情况下数据在高维空间都是非线性的,并且可能是高度扭曲的,所以非线性的降维方法成为人们关注的重点。而人工神经网络的出现提供了一种新的思路,它在非线性问题中发挥着良好的作用。本文对传统聚类算法和高维数据聚类算法进行了全面的介绍,包括它的基础理论和常见方法,同时阐明了二者所存在的缺陷和问题。我们的侧重点是高维数据聚类,所以对处理高维数据方法中的一种基于神经网络的算法进行了比较深入的研究,介绍了与之相关的内容和算法的优劣。因为神经网络的结构没有规律可寻,所以我们从网络的层数和每层的结点数的角度考虑,通过实验得到一种新的结构,使得在同一目标函数下优于原结构。鉴于传统聚类算法在处理高维数据时的困难,我们以找到的结构为基础,先实现数据从高维到低维的转换,然后再对降维后的数据用传统的算法进行聚类;比较对数据直接聚类和先降维再聚类两种情况下的实验结果,从而证明降维对高维数据聚类的有效性。降维时,如何选择数据要降到的维数也是面临的一个问题。在文中,我们用极大似然估计方法对数据的本征维进行了估计,并且计算在该维度下的聚类结果。同时也求得了降到其它维时的结果,对这些结果进行比较,以便我们能够知道数据降到多少维是合适的或者是大致确定一个范围。
其他文献
<正>【前记】许杰先生(1901~1993),原名许世杰,字士仁。浙江省天台县人。1925年,加入文学研究会。我国乡土文学的代表作家、评论家和鲁迅研究专家。1928年,曾到吉隆坡,任华侨
栀子豉汤出自汉代医圣张仲景的《伤寒论》,由栀子和淡豆豉两味中药组成,是典型的复方中药药对,临床上对于焦虑、抑郁、失眠及神经衰弱等亚健康状态具有良好的调节和改善作用
本文以鄂尔多斯盆地苏里格东南地区盒8段低渗透致密气砂岩储层为研究对象,利用铸体薄片、扫描电镜、高压压汞、恒速压汞、核磁共振等实验研究方法,深入分析研究鄂尔多斯盆地
赣南素有“世界钨都”之称,南岭钨锡成矿带是世界著名成矿带。崇-余-犹成矿带位于南岭东部,大地构造属欧亚大陆板块与滨西太平洋板块消减带的内侧华夏板块,为华夏板块(Ⅰ级)
失业群体是社会中长期存在的一个群体。一个国家和社会的失业人群多少和失业率的高低,直接反映这个国家和社会的经济发展水平和社会和谐程度。在失业群体当中,可按年龄划分成
文化全球化的推进,让知识跨国传播成为可能。现如今,在国际学术舞台上,学术期刊的影响力和话语权问题,成为文化软实力的重要体现。本文从新媒体环境的机遇与挑战现实出发,分
第一部分:不同温度热消融小鼠皮下移植性肝癌的实验研究目的:通过对小鼠皮下移植性肝癌进行不同温度的热生理盐水消融,观察小鼠生存时间、肝癌体积大小、消融灶内免疫细胞及热
目的:本研究将情景模拟训练方法引入到急诊低年资护士急救技能的培训工作中来,探讨其对急诊低年资护士急救技能培训效果的影响。方法:1研究对象某三级甲等综合医院急诊科的低
改革开放历经三十年,中国的经济总量已位居世界前列,当今中国已成为世界第四大石油生产国、第二大石油消费国和进口国。长期以来,国内成品油价格由政府主导,市场配置资源功能
20世纪90年代,中国当代文学逐渐开始进入一个新的阶段,市场经济的改革与发展,文化体制的改革,文学逐渐脱离政府扶持而独立谋生,文学作品日益成为商品进入市场流通。尤其是在2