论文部分内容阅读
随着基因测序技术的提出及计算机技术的飞速发展为精准分析肿瘤基因表达谱提供了希望,其已经成为精确医疗的重要研究对象。如何更准确的对高维的基因数据进行维数约简并且保持数据的全局与局部结构尽可能不变已经成为数据挖掘及机器学习的热门研究方向。本文结合低秩理论对基因数据表达谱的缺失点填充、特征提取及特征选择问题展开研究。本文主要的成果主要有以下几点: 1、本文首先针对当前的肿瘤基因数据的缺失点填充、特征提取和特征选择方法做基本介绍。在缺失点填充方面,描述了K近邻及局部最小二乘法矩阵填充方法;在特征提取方面,阐述了主成分分析、独立成分分析及局部线性嵌入算法;在特征选择方面,介绍了四种广泛使用的评分方法:Fisher评分、方差评分、拉普拉斯评分及稀疏评分特征提取方法。将各个算法与基因数据紧密结合进行详细介绍。 2、为解决肿瘤基因表达谱数据后续研究需要完整数据矩阵的问题,针对包含缺失点的数据集,本文提出基于矩阵填充与模糊C均值相结合的缺失点估计方法(FCM_MC)。该方法充分利用肿瘤基因表达谱数据的冗余信息,通过模糊C均值聚类得到具有良好的低秩特性的基因语义片段,再利用矩阵填充方法分别对每个语义片段进行缺失点的重建。在不同数据集上进行实验,与传统缺失点估计算法比较。实验表明 FCM_MC算法在缺失数据估计准确度和类结构保持度上效果得到有效提升,同时运行效率较高。 3、针对肿瘤基因表达谱的特点,提出了基于低秩图正则非负矩阵分解(LGNMF)的特征提取方法,解决了 NMF算法中缺少数据的全局信息问题,提升特征提取的有效性。该算法在 NMF算法的基础上引入低秩图约束,提高了对数据局部和全局结构的描述,使得经过特征提取后的特征空间具有更强的分类能力。通过 LGNMF算法对肿瘤基因表达谱数据集进行降维,获得低维特征空间,再使用 KNN分类器对低维特征空间进行分类。通过与 NMF、GNMF和 RGNMF算法在四组标准肿瘤基因表达谱数据集进行对比,实验结果表明LGNMF算法能够有效提升分类效果。 4、为了完成肿瘤基因的特征选择,采用基于低秩评分的肿瘤基因表达谱特征选择算法,该算法通过构建基于低秩表示的相似度矩阵来揭示数据的全局结构特性和鉴别信息,从中选择分类能力强的特征子空间,达到大幅度降低原始数据空间维数的目的。经实验验证,与LS、SS的评分相比取得了更好的降维效果有利于后期分类结果。