基于过滤机制的聚类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yhz8668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种无训练集和无训练过程的机器学习方法。聚类分析广泛应用于各个领域,例如:生物工程,商业引流,金融投资,医学影像研究,用户分析等,聚类分析的过程中应尽量确保类别相同的数据对象之间具备较高的相似性,而类别不同的数据对象之间具备较低的相似性。本文在研究现有聚类算法的基础上,针对聚类原型选取存在密度度量失衡,相似性度量粗糙,聚类原型选取存在偏差、代表性不佳、人工干涉选取过程等问题,依据数据中核心对象与非核心对象的分布差异,本文从均值漂移和对象间的近邻关系着手,对聚类原型的过滤和选取展开了研究,论文的主要研究工作如下:(1)提出了一种基于均值漂移理论和过滤机制的混合属性数据聚类算法(MC-FM)。该算法利用改进的混合属性相似度度量对象之间的相似度,利用每个对象的局部均值漂移,利用k近邻和均值漂移,根据过滤机制区分核心对象和非核心对象。先对核心对象进行初步划分,最后将非核心对象划分至相应的簇,形成最终的聚类结果。使用合成数据集和UCI数据集进行实验,依据实验结果验证算法的有效性,与同类算法相比,MC-FM算法具有较高的聚类精度。(2)提出了一种基于密度与Mk NN的聚类算法(MO-Mk NN)。该算法利用对象间的互近邻个数得到过滤因子,并根据所得到的过滤因子区分核心对象与非核心对象,将核心对象按照近邻关系进行广度优先搜索得到聚类原型,最后根据k近邻划分剩余对象形成最终聚类结果。使用合成数据集和UCI数据集进行实验,依据实验结果验证算法的有效性,MO-Mk NN算法具有较高的聚类精度。
其他文献
甘蔗属于禾本科甘蔗属,不仅是一种重要的糖料作物,还是一种潜在的能源作物。虽然甘蔗属全基因组测序目前还未完成,但在分子标记的辅助下甘蔗商业种的遗传多样性和亲缘关系有
生态环境问题关乎社会民生和福利,与经济发展也有密切的关系,但是生态环境具有公共物品所具有的外部性、非排他性、非竞争性等特性决定了其无法依靠市场的自主调节进行有效资
本文研究创新规范推进PPP模式的对策,旨在解决我国PPP模式存在的问题。PPP模式的本质是基础设施与公共服务供给制度的结构性创新,突破了政府垄断与完全市场化非此即彼的边界,
2010年以来,随着互联网技术的高速发展和“三网融合”政策的逐步推进,广电运营商的垄断地位被打破,广播电视行业格局彻底改变,从此进入诸侯争霸时代。移动、联通、电信“三大
自改革开放以来,河南省能源供需矛盾不断扩大,近年来节能减排压力也在增加,河南省大力推广改进能源效率的先进技术,但能源消费总量却在不断攀升,如目前在物流业的技术创新应用较多,但能耗量依然很大,因此在实施节能政策时,应精确评估技术改进带来的能源回弹效应。目前尚未有文献研究河南省的能源消费回弹效应,文章从技术进步的视角探究技术进步和能源消费总量两者的关系,选取适当指标,将模型和面板数据予以量化说明,研究
高速列车受到的气动阻力占总阻力的百分比随着列车速度的增加而增加。当时速达到300km/h时,气动阻力的占比达到85%。因此,减小高速列车行驶时受到的气动阻力,对节能降耗,以及列车提速,有着重要意义。本文通过数值方法,基于时速250km/h(70m/s)的高速列车模型,对微结构表面的气动减阻特性进行了研究。本文主要工作如下:1)通过数值方法,得到光滑平板面壁面摩擦阻力系数数值解,与经验公式计算值进行
目的:探究甲状腺激素水平、红细胞分布宽度(RDW)水平对慢性阻塞性肺疾病急性加重期(AECOPD)患者预后的评估价值。方法:收集2017年12月至2018年12月青海大学附属医院老年二科、呼吸内科、重症ICU、急诊ICU因AECOPD住院的患者118例,根据患者病情预后状况分为预后良好组67例。预后不良组51例。收集临床资料及数据包含:性别、年龄、吸烟指数、体重指数(BMI)、氧分压(PaO_2)
目前,大多数企业都采用手工磨削的方式加工小型五金件,为了提高磨削加工自动化水平和产品的一致性,机器人磨削加工技术逐渐引入到制造生产中。然而,现有的机器人磨削加工系统
抗生素广泛应用于人类和动物的疾病治疗及畜禽养殖业,作为饲料添加剂的抗生素可以促进动物生长并预防疾病,然而这些抗生素随着动物粪便的农用可以进入土壤、水体等环境,对植
连续机器人具有传统刚性连杆机器人所不具有的优良特性,理论上具有无限的自由度,能以任意复杂形状进行运动,故在理论上,连续机器人可以应用于任何工作场景。本文依据象鼻的柔