论文部分内容阅读
当前,癌症是导致人类死亡的主要疾病之一。随着第二代测序技术的发展,世界各国的学者实施了大规模癌症基因组测序工程(例如TCGA),获得了大量不同类型的生物学数据(例如mRNA表达数据,DNA甲基化数据,体细胞突变数据),对于理解癌症的发病机理,寻找肿瘤的准确亚型,设计出治疗癌症的有效药物等方面产生了积极影响。然而,新的问题也随之而来,如何充分整合和利用多组学的生物测序数据来设计出肿瘤亚型聚类算法,成为生物信息学研究的热点之一。目前,肿瘤亚型聚类常用的分析方法仍是半监督或着无监督的对单一的生物组学数据的样本分配。但这类方法存在的缺陷是多种相关性数据类型不能用于一个单独的聚类方法,容易造成信息损失。近几年来,基于多组学生物数据,研究者提出了一些肿瘤亚型聚类分析算法。但这些方法还处于发展的早期阶段,仍然存在许多问题亟待解决。如基因的预筛选问题、构建真正意义上的数据整合模型、得到更为准确的结果等。因此迫切需要发展新的数据分析方法。本文中,我们研究工作的核心思想是基于稀疏低秩回归的方法,把高维度的多组学数据投射到一个低维度的含有主要的生物过程的子空间里,最终达到数据融合和快速聚类的目的。第一章介绍了基于多组学数据的亚型分析的研究背景、研究意义,以及国内外研究现状和主要的研究方法。第二章介绍了各种研究癌症亚型常用的数据和,列举回顾了多种具有代表性的整合多种数据的聚类算法。第三章介绍了基于稀疏低秩回归方法优化iCluster算法的理论。我们基于稀疏低秩回归的方法代替了优化的PCA的算法,计算出具有稀疏低秩性的系数矩阵的初值,保证了后续迭代过程中估计出最优的后验概率值。与iCluster算法相比的比较实验也验证了算法改进的有效性。第四章介绍了基于稀疏低秩回归的方法提出的Scluster聚类算法的理论。它是用一种用该方法首先利用合适的稀疏低秩回归的方法来从每种生物数据中发现有效的低维度的子空间,然后整合这些子空间为一个样本-样本的相似矩阵,最后用谱聚类的方法识别癌症亚型。对于在三种不同的癌症类型数据集上的实验结果表明,我们提出的Scluster在预测生存周期上更加有效。在GBM的亚型分析中,基于表达数据和甲基化数据的整合,我们的方法能更有效的捕捉到生物上的特征和发现亚型中的子集,发现了一种隐在的新型亚型。第五章介绍了研究中的一些问题并总结全文、展望未来的发展方向。