【摘 要】
:
模糊C均值聚类已广泛应用于模式识别、图像处理等领域。在现实生活中,由于数据遗漏、数据获取限制等原因,所获得的数据集通常含有大量的不完备数据。然而,传统的聚类方法无法直接应用在带有不完备数据的数据集中,对缺失属性的处理办法不同也直接影响到了聚类结果。因此,本文从样本的近邻相关性角度出发,提出了两种不完备数据聚类方法,并将算法在某公司研究人员能力评价模型中加以应用。主要研究内容包括:(1)针对基本模糊
论文部分内容阅读
模糊C均值聚类已广泛应用于模式识别、图像处理等领域。在现实生活中,由于数据遗漏、数据获取限制等原因,所获得的数据集通常含有大量的不完备数据。然而,传统的聚类方法无法直接应用在带有不完备数据的数据集中,对缺失属性的处理办法不同也直接影响到了聚类结果。因此,本文从样本的近邻相关性角度出发,提出了两种不完备数据聚类方法,并将算法在某公司研究人员能力评价模型中加以应用。主要研究内容包括:(1)针对基本模糊C聚类算法对数据集具有等划分趋势的缺陷,基于样本间的近邻相关性和样本近邻的类别比例,提出了一种基于样本空间距离的不完备数据模糊C均值聚类方法。算法首先提出了一种基于近邻样本类属的空间距离,将样本点周围近邻样本的类属信息以比例的形式引入原有的欧氏距离加以改进,利用样本分布信息,达到使距离度量过程可根据数据集变化做一定调整的目的,并根据样本点间的距离构造一个聚类影响值引入聚类目标函数。实验结果表明,所提算法因在距离计算中考虑了样本空间分布特征进而得到更为准确的不完备数据的聚类结果。(2)针对边缘点和离群点对聚类有较大影响的问题,基于样本间的近邻相关,提出了一种样本近邻隶属度加权的不完备数据聚类方法,利用样本近邻的加权隶属度来修正样本本身的隶属度,使样本本身的隶属度受其近邻样本的隶属度的加权平均值所调整,为充分利用样本的分布信息,所使用的加权系数为改进的高斯核函数,使样本点邻域内的样本分布能够对样本点之间的相似度产生作用,以提高不完备数据集的聚类效果。实验结果表明,所提算法在相关性较强且子类重叠明显的数据集上均可得到更为准确的聚类结果。(3)在研究人员能力等级评估中,使用上面提出的不完备数据模糊C均值聚类方法作为研发人员评价模型的建立。实验结果表明,利用本文提出的不完备数据聚类方法的等级评价模型可对完备或不完备的员工信息样本集做出正确率达90%以上的等级评定。
其他文献
作为培养技术应用型人才的职业技术教育,必须进行全方位的改革才能适应时代的发展,而改革职业技术教育教学模式是大力发展职业技术教育的一项务实举措.本文通过对国外几种教
地点:光明日报大会议室$$ 时间:二○一五年七月$$ 今天,我将围绕着“一带一路”的主题谈谈我的看法和认识。$$ 如何来认识“一带一路”的本质性特征呢?我用了两个关键词:一
表面渗碳、渗硼技术是有效提高金属基体表面性能的方法。探寻获得高质量渗层的制备工艺,研究渗层对304奥氏体不锈钢性能的影响对于扩大其应用和发展具有十分重大的意义。本课
超低碳贝氏体高强钢以其低成本、高强度、强可焊性和优良低温韧性的优势已经广泛应用于煤矿和矿山机械、大型鼓风机、石油化工、锅炉容器等行业,在降低成本的基础上,保证钢板
一、“地理 1”在高中地理课程中的地位本次高中地理课程设计 ,提倡“自然地理、人文地理和区域地理的联系与融合” ,不主张自然地理和人文地理的分离和割裂 ,但从知识内容的
<正>《标记免疫分析与临床》是国内外公开发行的医学刊物,是"中国科技论文统计源期刊"(中国科技核心期刊),被《中国学术期刊综合评价数据库》、《中国期刊网》、《中国学术期
<正>教育部、司法部、全国普法办于2016年6月28日联合颁布了《青少年法治教育大纲》,提出青少年法治教育要以宪法为核心,将宪法教育贯穿始终。宪法是我国的根本大法,是治国安
岭南传统景观设计元素(大多)应用于一些景观的外部视角,景观的组合以及景观的局部装饰,它拥有着多种形式,并且将中西方的文化融合在一起,形成了丰富多彩的样式。这种元素作为
伴随着全国汽车保有量的不断攀升,特别是私家车消费时代的到来以及无人驾驶技术的发展,行车安全问题已经成为民生发展的热门话题。因此,众多学者提出了“智能交通”的概念,旨在感知道路信息、辅助驾驶、规避风险、保证安全行驶。其中如何有效的检测交通标志,并将检测结果反馈给驾驶员,成为了“智能交通”领域和无人驾驶技术研究的热门课题。早期的交通标志检测多基于颜色、形状、纹理等特征,但受到交通标志种类繁多、所处自然
IGBT作为新能源汽车的核心部件之一,承担着控制电动机动力分配输出以及电动机和发动机运行匹配的任务,在新能源汽车的行驶过程中起着举足轻重的作用,是新能源汽车的“大脑”