【摘 要】
:
聚类分析作为数据挖掘领域中重要组成部分,在当今很多的行业和领域中得到了广泛的应用,聚类算法相互结合可以得到更优质更有效的聚类算法,因此在算法融合方面,对层次K均值聚
论文部分内容阅读
聚类分析作为数据挖掘领域中重要组成部分,在当今很多的行业和领域中得到了广泛的应用,聚类算法相互结合可以得到更优质更有效的聚类算法,因此在算法融合方面,对层次K均值聚类算法(Hierarchical-K-means-Based Clustering Algorithm,H-K聚类算法)的研究已成为一个研究热点。本文对当前广泛应用的聚类算法进行相关的研究,比如层次聚类算法和划分聚类算法以及基于H-K的聚类算法,并提出一种改进的H-K聚类算法:基于距离评价函数和熵的聚类算法(HKDE算法)。本文分别对聚类算法的国外研究现状和国内研究情况、聚类分析的相关理论依据和实验成果、最初的聚类算法、距离与相似性度量方法、划分聚类算法、层次聚类算法、传统H-K聚类算法做了深入的研究与分析。针对传统H-K聚类算法聚类质量不高,算法效率较低且对噪声敏感的问题,加入了距离评价函数的概念对H-K聚类算法中的K值进行优化提高聚类质量,采用kd-树数据结构对数据进行处理以提高算法效率,加入信息熵的概念作为相似性度量标准从而降低H-K聚类算法对噪声敏感的问题,并在此基础上提出了改进的H-K聚类算法:HKDE算法。针对HKDE算法在层次聚类阶段需要将当前数据对象加入到每一个簇中计算熵值增量从而造成计算量较大的问题,加入了一个距离阈值ε,使得HKDE算法在聚类过程中,只计算当前数据对象到簇的中心点的距离小于或等于ε的簇的熵值增量,以距离阈值ε为判断标准减少当前数据对象加入簇计算熵值增量的数量,从而降低算法的运行时间,以达到提高算法效率的目的。论文根据仿真实验的结果对提出的HKDE算法进行了有效性的验证,在实验结果的对比中将提出的HKDE算法与传统H-K聚类算法从算法聚类质量方面、算法效率方面、多维数据处理方面做了针对性的对比分析。实验结果验证了本文所提出的HKDE算法能够比较好的应用在数据聚类的处理工作方面,新的算法比传统的H-K聚类算法具有更好的聚类质量和较高的算法效率,在多维数据的处理能力上也有较好的表现。
其他文献
BIM技术在国内建筑行业中已经不是新鲜的话题,然而这这个名词已经活跃了很多年,BIM技术却并没有在国内建筑领域普及。本文通过探究BIM技术在建筑施工中的应用,结合国内BIM技
汽车零部件失去原设计所规定的功能称为失效,汽车零部件失效分析,是研究汽车零部件丧失其功能的原因、特征和规律;目的在于:分析原因,找出责任,提出改进和预防措施,提高凄恻可
不同群落结构绿地系统中大气CO2的空间分布特征和来源解析是优化植物配置模式、评价绿地生态效益的重要依据。本文以北京市园林科学研究院("乔-灌-草"结构)和四得公园绿地(单一
本篇文章主要考虑在有限维情况下随机热反应方程的解在长时间内的存在现象。对于方程具有Dirichlet边界条件,初值u0非负连续,并且uγ具有Lipschitz条件,考虑在(0,∞)× D内解的存在性、连续性等性质。其中D(?)Rd是具有光滑边界的有界域。在给定任意确定时间[0,T]内,若u0是Lp(p≥2)有界的,可以保证u在[0,T]× D内也是Lp有界的;进一步,可以得到u的连续性,且阶数与空
针对我国地铁施工安全事故频发现象,分析地铁施工的特点,探索施工安全事故发生的主要原因,通过对原因的分析,得出对施工现场作业人员安全管理的重要性,基于组织心件管理理论,
52例脑梗塞患者均用头穴治疗时观察血流变学中的全血粘度,血浆粘度、红细胞压积、血沉等指标变化.结果表明:头穴具有降低全血粘度、血浆粘度、红细胞压积、血沉等作用,提示:
樟芝,又名牛樟菇、牛樟芝,是台湾地区特有的一类十分稀少的药食两用真菌。已发现其有多种活性成分,如三萜类化合物、多糖、腺苷、安卓奎诺尔等,具有护肝、抗疲劳、抗癌、抗炎、抑菌等功效,最早被台湾当地居民用于治疗因过量喝酒或疲劳引起的不适。由于它只寄生在牛樟木上,生长速度缓慢,因此价格较昂贵。本论文将以液态培养方式,以提高樟芝胞外三萜类化合物含量为目标,通过正交试验优化其液体培养基;在此基础上,以樟芝液为
随着城镇化和工业化的快速发展,我国对土地资源尤其是耕地资源的需求量逐渐加大。2008年国家开始在全国实施一批土地开发整理重大工程,其中位于我国黄土高原地区的有陕西延安
水杨酸(Salicylic acid,SA)是一种广泛存在于植物中的重要激素,可以直接或间接地调节植物的抗病反应、叶片衰老等生命活动。不同植物中的SA含量差异很大。目前,模式植物拟南
买药就送鸡蛋,你见过吗?在天津一家药店的宣传中,就出现了这样的奇特“风景”。该店总共准备了价值30多万元的鸡蛋,鸡蛋整齐地码放在该药店门前,每个鸡蛋上都贴着一张精心设