论文部分内容阅读
由于高通量全基因测序技术的高速发展,产生了大规模的基因表达谱数据,结合数据挖掘技术获取有效的生物学知识已经成为精准医疗的研究热点。原始的癌症基因表达谱数据具有维度高、分布不平衡、冗余数据、结构复杂等特点,导致聚类分析过程中大量高维属性的计算成本增加、聚类结果的不精确,这会对探索一种癌症是否存在亚型以及是否存在癌症分子标记物的结果产生偏差。根据基因表达谱数据的特点,考虑各类聚类算法的优缺点,构建癌症亚型聚类分析的主要框架,包括数据的预处理、特征的选择、聚类方法及聚类结果的评价指标。重点介绍两种适合基因表达谱数据的亚型聚类算法模型。针对基因表达谱数据在密度峰值聚类算法(Density Peak Clustering,DPC)中会出现多个高密度点难以准确选取聚类中心的情况,提出一种改进节点凝聚度的密度峰值聚类算法(Improved Aggregation Density Peak Clustering,IA-DPC)。该方法首先利用节点凝聚度的思想构建节点重要度的评价函数,并计算每个节点的局部重要度。然后,对节点重要度进行排序,选取节点重要度与距离乘积值异常大的点作为每个类簇的聚类中心。与DPC、ADPC-KNN算法比较,实验表明IA-DPC算法能够找到具有更高聚类精度的聚类中心,提升亚型聚类的准确率。针对传统聚类方法在癌症基因亚型聚类方面无法获取合理的生物解释,并且不能够解释基因间相互作用的情况,提出一种结合Davies-Bouldin指数的一致性聚类算法(Consensus Clustering with Davies-Bouldin Index,CC-DBI)。该方法采用重采样的手段抽取数据子集,对子集进行聚类构建一致性矩阵,多次运用重采样方法最终达到聚类结果的一致性。它能够反映出样本点的紧密度、克服随机因素的影响,进而可视化最终的聚类结果,运用DBI指数评估聚类结果的质量得到最终结果。实验表明DBI指数能够从可视化的聚类结果中选取最优或较优的聚类结果。综上所述,本文采用IA-DPC算法和CC-DBI算法两种聚类算法模型在8组癌症表达谱数据上进行聚类实验。根据基因表达的差异性进行特征的选择,并引入能够反映聚类结果质量程度的评价指标,验证了本文提出的方法对于基因数据集识别新亚型具有合理性、有效性,也验证出在癌症亚型聚类方面IA-DPC算法、CC-DBI算法的优势之处。