论文部分内容阅读
单细胞测序是一种在单个细胞水平上对遗传信息进行测序和量化的新兴技术,可用于解析细胞的类型、状态、相互作用机制及其进化等,现已成为当前疾病研究的重要途径。机器学习方法,包括聚类分析、分类、多数据整合等,日益成为单细胞测序数据分析的主要方法。通过聚类分析方法能够有效划分细胞类型;通过提取并学习现有细胞类型标签,构建细胞分类模型,可快速、精准地指导同类型细胞识别;单细胞多组学数据整合分析可以有效结合细胞的多角度信息,系统性的揭示细胞的类型、功能及其相互作用,并减少假阳性率,精准呈现细胞异质性的全貌。然而,很多聚类分析方法由于易陷入局部最优,仍需要一系列新方法、新手段来提升聚类结果及后续细胞类型识别的准确性;在细胞识别的精度方面未考虑样本的权重,精度也需要进一步提高;在数据整合分析方面工作仍有不足。基于以上现状,本论文从聚类、分类、多组学数据整合角度出发,基于仿真数据和真实数据开发相应的算法,旨在提升单细胞测序分析的可靠性和稳定性,助力复杂疾病的研究。(1)由于细胞数量多且在多个维度属性中均展现出异质性,使得单细胞测序数据呈现出高维度、高噪音的特征。现有聚类方法由于对噪声数据和异常值极其敏感,容易陷入局部最优解,极大的限制了聚类的准确度。这项工作致力于聚类分析方法的改进,首先为sc RNA-seq数据聚类分析引入了基于F-范数(Frobenius范数)的非负矩阵分解(NMF)的单细胞自步聚类(single cell self-paced clustering,sc SPa C)方法和基于l2,1-范数的非负矩阵分解的稀疏单细胞自步聚类(sparse single cell self-paced clustering,ssc SPa C)方法;其次,将每个细胞按照从简单到复杂的方式,逐步添加到聚类模型中,通过显著降低噪音和异常值对聚类结果的影响,避免算法陷入局部最优。最后,基于仿真数据和真实的sc RNA-seq数据对改进后的sc SPa C聚类算法进行性能评估,结果表明,改进后的sc SPa C聚类算法的性能显著优于当前聚类算法,可以有效提高聚类结果及后续细胞类型识别的准确性。(2)精准快速地识别细胞类型有助于解析细胞的功能及其与疾病的关联。由于单细胞测序数据聚类分析极其复杂,且部分细胞具有未知的细胞类型标签,无法被精准分类,因而急需有效的分类模型用于精准、快速地指导细胞分类。这项工作聚焦于单细胞测序数据分类,提出了一种源于softmax多分类模型的单细胞鲁棒软回归模型(single cell robust softmax regression,sc Ro SR),用于指导特定类型细胞的识别。具体来说,sc Ro SR考虑了加权方案,能够评估每个单细胞实例的重要性。然后,单细胞数据实例根据其权重参与到分类问题中。通过这种方式,噪音数据和异常值(通常权重较小)的影响可以被大大降低。然而,标准的SPL会受到类不平衡问题的影响,如果一些细胞类型对损失不敏感,那么它们在训练过程中的影响就很小。为了缓解这个问题,本文设计了两种新型的软加权方案,为每个细胞类型分配权重并在类内选择每一步加入自步策略的细胞。最后,基于仿真数据和真实单细胞测序数据,对sc Ro SR分类算法进行性能评估,结果表明,sc Ro SR分类算法具有稳定的单细胞类型识别性能,其分类性能显著优于其他分类算法,可以用于特定类型细胞的精准快速识别。(3)单细胞测序已被应用于多种组学研究,如:转录组(sc RNA-seq)、表观遗传组(sc ATAC-seq)。对不同组学数据进行整合分析有助于全面地刻画细胞的分子基础及其功能。现有多组学数据整合方法多基于欧式距离,通过共享其中一个因子矩阵来达到联合分析的目的,极大地忽略了不同组学数据的异构关系。面向图的聚类方法因能够有效学习隐藏在数据中的异构关系和复杂结构,被广泛应用于多视图聚类分析中。本文聚焦于单细胞多组学数据整合,采用多视图聚类分析方法,提出了一种隐含自适应流形(Adaptive Manifold Learning,AML)单细胞多组学整合算法。在该算法中,首先,将不同组学数据视为不同的视图,从而将多组学数据整合转化成为多视图聚类分析,将多个自适应图有效的集成到一个具有流形拓扑结构的一致性图中。其次,利用有效的秩约束控制一致图,使其连通分量精确地对应于不同的簇。因此,AML模型能够直接获得离散的聚类结果,而不需要任何后处理。最后,基于仿真数据和真实数据,对AML单细胞多组学数据整合算法进行性能评估,结果表明,AML的性能显著优于其他多组学数据整合算法,可用于刻画细胞的分子基础及其功能。综上,本论文围绕单细胞测序技术中的关键技术:聚类、分类及多组学数据整合,设计相应的模型和算法,丰富单细胞测序分析技术。本论文的研究方法有助于揭示细胞间异质性,发现新的细胞亚群,解析细胞谱系分化,发现疾病新标志物,提供个性化的精准医疗等具有重要理论和实用价值。