基于伪近邻及区间距离的不完备数据聚类方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:JK0803_zhoukaijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对不完备数据的处理一直是数据分析和模式识别领域的重要研究内容。在现实世界中,受噪声、人为错误等主客观因素的影响,获取的数据常包含缺失值。数据的不完备性给聚类分析带来了巨大挑战,不完备数据难以直接使用常见的聚类算法进行聚类分析,对不完备数据不同的处理方法常常得到不同的聚类结果。如果处理不好,会给聚类结果带来明显的偏差甚至直接产生错误结果。因此,本文研究了基于伪近邻及区间距离的不完备数据聚类算法,主要内容包括:(1)针对缺失属性值的不确定性,本文提出了基于伪近邻区间的不完备数据模糊c均值聚类算法。首先根据伪相似度确定不完备样本的伪近邻样本,利用伪近邻样本的属性值信息,将不完备样本的缺失属性值描述为区间数,样本的完备属性值则描述为两端数值相等的区间数,从而将不完备数据集转化为区间型数据集,最后对区间数进行聚类。该算法使用伪相似度寻找不完备样本的近邻关系,同时考虑了样本间的余弦相似度和样本属性值的完备性;另外,缺失属性值的区间型描述充分考虑了不完备样本的近邻样本属性值分布信息,相比数值型描述更能体现缺失属性值的不确定性。(2)为了计算不完备样本到聚类中心的距离,本文利用三角不等式和伪相似度提出了一种描述不完备样本到聚类中心之间大小的区间型距离,基于此给出了一种基于三角不等式的不完备数据模糊c均值聚类算法。首先所提距离的区间型描述一定程度上反映了缺失属性值的不确定性;在区间型距离的计算过程中,三角不等式和伪相似度的使用充分考虑了不完备样本近邻样本的分布信息,在一定程度上对区间的端点值进行了合理的估算。最后给出了不完备数据集下基于该距离的模糊c均值聚类算法,由于没有直接对缺失属性值进行数值估算,在聚类迭代过程中避免了误差的迭代累积。
其他文献
家庭经济困难学生作为高校的一个特殊群体,已越来越受到社会的关注和重视。当前我国高校逐步形成了国家奖学金、国家励志奖学金、国家助学金、国家助学贷款、勤工助学、困难补助、学费减免等多种方式并举的资助体系。在该体系中,仅有国家助学贷款和勤工助学属于有偿资助,其他均为无偿资助。在这种资助模式的影响下,不少高校家庭经济困难学生出现了“等、靠、要”思想,出现了感恩、自立、自强意识缺乏等倾向,极大地影响了高校资
期刊
1984年10月16日至1985年10月19日《,经济日报》罗开富同志按照当年红军二万五千里长征的路线,严格在同一时间徒步走完原路全程,写下了300多篇《来自长征路上的报告》。在纪念
民办高等职业教育为高等教育大众化的实施和地区经济发展做出了应有贡献的同时,自身也取得迅猛发展。在享受成功喜悦,面对高等教育的国际化、市场化办学趋势,更为严重的生存危机和挑战也摆在了面前,民办高职院校必须实施品牌战略,才能赢得社会和受教育者的信赖,求得自身的生存与发展。本文介绍了云南经济管理职业学院实施品牌战略采取的措施、初步取得的成效及存在问题,希望能给民办高等职业院校的品牌战略实施提供一些启示和
期刊
随着科技的发展和工业制造水平的提高,现代工业特别是航空航天、造船、汽车、石油及天然气储运、大型机械加工、涡轮机、发电机等领域,需要对各类零部件或大型结构外部尺寸进
建设美好社会,实现社会和谐,既是人类孜孜以求的一个社会理想,又是一个实际的社会发展与进步过程,也是中国共产党和中国人民的不懈价值追求。然而随着我国经济的飞速发展,出现了单纯追求利益最大化的不良现象,导致医疗行业人文关怀匮乏,一些医务工作者的行为背离人道主义,医患关系紧张,严重影响了社会主义的和谐进程。因此,在医学人才培养的源头———医学院校加强人文素质教育,培养素质高、医德好的合格医学人才具有重要
期刊
目的对深圳市2017年本地感染登革热病例进行病原溯源研究。方法对3例本地感染登革热病例开展流行病学调查,采集患者血清进行登革病毒IgM与IgG抗体、NS1抗原和核酸检测。用C6/36细胞进行病毒分离,用荧光RT-PCR方法对其进行型别鉴定。采用RT-PCR方法扩增病毒E基因后,进行序列测定构建进化树。结果实验室检测3例本地病例登革病毒核酸及NS1抗原均为阳性。分离到的2株登革毒株与1株马来西亚输入
一实践教学在石油高校人才培养中的作用与地位  实践教学是石油高校人才培养过程中的重要环节,不仅是对课堂理论教学的验证、补充和拓展,而且在培养学生的实践能力与创新精神方面有着理论教学不可替代的作用。理论需要在实践中升华,能力需要在实践中磨砺,素质需要在实践中提升。实践教学最根本的目的就是帮助学生将书本知识运用于生产实践,完成从书本到现实、从理论到实践的飞跃。因此实践教学与理论教学是石油高校人才培养不
期刊
以决策支持系统理论为指导,通过建立反映矿井开拓、开采、通风、安全等客观条件的数据库、图形库,反映专家救灾经验的知识库,具有一定的辅助救灾决策功能的模型库,以及为各种模型
随着数字信号处理技术和声电技术的不断发展和完善,以及仿人机器人人工智能水平的进步,听觉系统作为人类感官的重要组成部分,已经成为机器人研究领域的重要研究对象。由于声音具
图像监控系统被广泛应用在生产生活中的各个领域。嵌入式系统以其体积小、低功耗、扩展性好的特点,得到了越来越多的应用。基于嵌入式技术的图像监控系统在价格、灵活性、可