论文部分内容阅读
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)数据是一种关于遗传病理学研究的重要数据,其高维少样本,存在大量噪声和冗余,并且SNP位点之间存在连锁不平衡性,因此需要对SNP数据进行降维。提出一种改进的K-Center算法——K-MSU算法。使用K-Center进行数据降维,在K-Center算法的距离度量中引入对称不确定性,解决SNP数据之间的连锁不平衡性;针对K-Center算法的随机选择初始聚类中心的方法容易对聚类结果产生较大的影响,使用基于信息增益的密度