面向单细胞测序数据的机器学习方法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Stanleytsang627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞测序是一种在单个细胞水平上对遗传信息进行测序和量化的新兴技术,可用于解析细胞的类型、状态、相互作用机制及其进化等,现已成为当前疾病研究的重要途径。机器学习方法,包括聚类分析、分类、多数据整合等,日益成为单细胞测序数据分析的主要方法。通过聚类分析方法能够有效划分细胞类型;通过提取并学习现有细胞类型标签,构建细胞分类模型,可快速、精准地指导同类型细胞识别;单细胞多组学数据整合分析可以有效结合细胞的多角度信息,系统性的揭示细胞的类型、功能及其相互作用,并减少假阳性率,精准呈现细胞异质性的全貌。然而,很多聚类分析方法由于易陷入局部最优,仍需要一系列新方法、新手段来提升聚类结果及后续细胞类型识别的准确性;在细胞识别的精度方面未考虑样本的权重,精度也需要进一步提高;在数据整合分析方面工作仍有不足。基于以上现状,本论文从聚类、分类、多组学数据整合角度出发,基于仿真数据和真实数据开发相应的算法,旨在提升单细胞测序分析的可靠性和稳定性,助力复杂疾病的研究。(1)由于细胞数量多且在多个维度属性中均展现出异质性,使得单细胞测序数据呈现出高维度、高噪音的特征。现有聚类方法由于对噪声数据和异常值极其敏感,容易陷入局部最优解,极大的限制了聚类的准确度。这项工作致力于聚类分析方法的改进,首先为sc RNA-seq数据聚类分析引入了基于F-范数(Frobenius范数)的非负矩阵分解(NMF)的单细胞自步聚类(single cell self-paced clustering,sc SPa C)方法和基于l2,1-范数的非负矩阵分解的稀疏单细胞自步聚类(sparse single cell self-paced clustering,ssc SPa C)方法;其次,将每个细胞按照从简单到复杂的方式,逐步添加到聚类模型中,通过显著降低噪音和异常值对聚类结果的影响,避免算法陷入局部最优。最后,基于仿真数据和真实的sc RNA-seq数据对改进后的sc SPa C聚类算法进行性能评估,结果表明,改进后的sc SPa C聚类算法的性能显著优于当前聚类算法,可以有效提高聚类结果及后续细胞类型识别的准确性。(2)精准快速地识别细胞类型有助于解析细胞的功能及其与疾病的关联。由于单细胞测序数据聚类分析极其复杂,且部分细胞具有未知的细胞类型标签,无法被精准分类,因而急需有效的分类模型用于精准、快速地指导细胞分类。这项工作聚焦于单细胞测序数据分类,提出了一种源于softmax多分类模型的单细胞鲁棒软回归模型(single cell robust softmax regression,sc Ro SR),用于指导特定类型细胞的识别。具体来说,sc Ro SR考虑了加权方案,能够评估每个单细胞实例的重要性。然后,单细胞数据实例根据其权重参与到分类问题中。通过这种方式,噪音数据和异常值(通常权重较小)的影响可以被大大降低。然而,标准的SPL会受到类不平衡问题的影响,如果一些细胞类型对损失不敏感,那么它们在训练过程中的影响就很小。为了缓解这个问题,本文设计了两种新型的软加权方案,为每个细胞类型分配权重并在类内选择每一步加入自步策略的细胞。最后,基于仿真数据和真实单细胞测序数据,对sc Ro SR分类算法进行性能评估,结果表明,sc Ro SR分类算法具有稳定的单细胞类型识别性能,其分类性能显著优于其他分类算法,可以用于特定类型细胞的精准快速识别。(3)单细胞测序已被应用于多种组学研究,如:转录组(sc RNA-seq)、表观遗传组(sc ATAC-seq)。对不同组学数据进行整合分析有助于全面地刻画细胞的分子基础及其功能。现有多组学数据整合方法多基于欧式距离,通过共享其中一个因子矩阵来达到联合分析的目的,极大地忽略了不同组学数据的异构关系。面向图的聚类方法因能够有效学习隐藏在数据中的异构关系和复杂结构,被广泛应用于多视图聚类分析中。本文聚焦于单细胞多组学数据整合,采用多视图聚类分析方法,提出了一种隐含自适应流形(Adaptive Manifold Learning,AML)单细胞多组学整合算法。在该算法中,首先,将不同组学数据视为不同的视图,从而将多组学数据整合转化成为多视图聚类分析,将多个自适应图有效的集成到一个具有流形拓扑结构的一致性图中。其次,利用有效的秩约束控制一致图,使其连通分量精确地对应于不同的簇。因此,AML模型能够直接获得离散的聚类结果,而不需要任何后处理。最后,基于仿真数据和真实数据,对AML单细胞多组学数据整合算法进行性能评估,结果表明,AML的性能显著优于其他多组学数据整合算法,可用于刻画细胞的分子基础及其功能。综上,本论文围绕单细胞测序技术中的关键技术:聚类、分类及多组学数据整合,设计相应的模型和算法,丰富单细胞测序分析技术。本论文的研究方法有助于揭示细胞间异质性,发现新的细胞亚群,解析细胞谱系分化,发现疾病新标志物,提供个性化的精准医疗等具有重要理论和实用价值。
其他文献
目的:系统性评价利多卡因在抽脂术中的安全和效果,并研究大范围吸脂(≥30%体表面积)结合分次注射抽吸中利多卡因的药代动力学,从利多卡因毒性探讨大范围吸脂的安全性;系统性评价吸脂手术中液体管理的影响因素,并评估在大范围吸脂结合分次注射抽吸中经改良的液体管理方案的效果,从液体管理探讨大范围吸脂的安全性。研究方法:1 通过检索PubMed等数据库及手工检索有关利多卡因和脂肪抽吸文献。对纳入研究做质量评价
二氧化碳(CO2)红外气体传感器在工农业生产、医疗卫生,航空航天,环境保护等领域有着广阔的应用前景。随着微电子机械系统(Micro-Electro-Mechanical System,MEMS)技术的发展,在物联网、可穿戴设备以及智能移动终端飞速发展的需求牵引下,对CO2红外气体传感器提出了微型化、智能化、低功耗的新要求。因此,研制微型化红外气体传感器具有重大意义。本文基于红外气体敏感机理提出微型
目的:胶质瘤是颅内最常见的原发性恶性肿瘤,占颅脑原发性肿瘤的40%~50%,年发病率为3~8人/10万人。2016年WHO中枢神经系统肿瘤分类重新构建胶质瘤的分型,将分子表型整合组织病理作为诊断标准。这是首次将分子变异纳入诊断金标准,也是癌症领域的一次变革。多形性胶质母细胞瘤((Glioblastomas,GBM))发病率最高,约占星形细胞瘤的75%。其生长速度快,70%~80%未治疗患者病程在3
由摩尔定律所预示的微电子的发展逼近极限,光子技术或者光电子技术则被认为是一种有望进一步提升信息器件性能的关键技术。随着大数据、云计算和物联网等技术的迅猛发展,对高集成度、高速、高效率的光电器件的需求愈发迫切。高集成度的要求促进了器件小型化的发展,但小型化将带来光与器件材料结构作用不充分的负面影响,导致器件效率下降,这个矛盾制约了传统光电器件的进一步发展。近年来,微纳光子学迅速发展,基于微纳光学结构
研究背景多发性骨髓瘤(Multiple myeloma,MM)是一种来源于血浆细胞的恶性血液病,是世界第二大血液肿瘤,近年来许多国家的发病率都在逐渐增加。尽管MM的诊断和治疗水平不断地提高,但常规治疗手段的治疗效果目前仍无突破性进展。近年来,随着人们对多发性骨髓瘤的细胞生物学研究的深入,分子靶向正成为研究热点。MicroRNAs(miRNAs)是进化上保守的短的非编码RNA,其长度为19-25个核
第一部分:EGFR-TKI联合肺部病灶SBRT治疗EGFR突变晚期非小细胞肺癌的疗效研究背景:酪氨酸激酶抑制剂(Tyrosine kinase inhibitors,TKI)是表皮生长因子受体(Epidermal growth factor receptor,EGFR)突变的晚期非小细胞肺癌(Non-small-cell lung cancer,NSCLC)的标准治疗方法,但终究会产生耐药性。由于
在茎尖分生组织(Shoot Apical Meristem,SAM)中,CLV3-WUS反馈调节机制精准地维持着分生组织中干细胞的增殖与分化之间的平衡。细胞核内的转录因子WUS促进干细胞标记基因CLV3的表达,维持干细胞特性;而CLV3的表达抑制WUS的转录水平,促进干细胞分化,控制着茎尖分生组织中干细胞的数目。课题组前期研究表明,黄瓜心皮数是由CsCLAVATA3基因控制的简单质量性状。本试验旨
目的:肺癌是全世界范围最常见的一种恶性肿瘤,患者数目庞大、生存期短都是它的主要特点。谈及病因,肺癌的发生与个人不良生活习惯、外界环境情况、基因遗传等因素有关。在20世纪90年代针对肺癌的细胞毒性治疗还没有有效的选择,进入21世纪,第一代EGFR酪氨酸激酶抑制剂(TKI)的出现带来了重大的突破,接下来又出现了MET抑制剂、针对基因突变、分子靶向治疗等相关药物选择。尽管目前药物的选择相对成熟,但肿瘤的
近年来,重大传染病在全球频发。从2003年的非典(SARS)疫情,到2009年甲型H1N1流感疫情,至2019年12月底的新型冠状病毒肺炎(以下简称新冠肺炎)疫情,每一次重大传染病的爆发给我国人民社会、经济生活带来巨大影响,尤其对高敏感度的旅游业冲击巨大。以新冠肺炎疫情为例,自2019年12月起至2020年2月,旅游业几乎处于停滞状态。直至2020年2月底开始,国家和地方政府出台了一系列帮扶旅游业
电子器件小型化的极限是达到单分子水平,由于量子效应的影响,基于传统硅基技术手段难以达到如此微小的尺寸。因此采用分子电子学的手段,以自下而上的方法制备分子集成电路为电子器件的进一步小型化提供了新的机遇。同时,分子电子学也为探明化学反应机理、纳米电催化、异构体识别、生物探测、研究并发现微尺度下的物理效应提供了有效的手段。这种巨大的研究价值吸引着研究人员在该领域不断的探索并取得了巨大的进步。单分子器件中