论文部分内容阅读
在生物信息学领域,对已测序的细胞RNA序列实行聚簇以发现细胞功能的相似性,有助于研究潜在的生物机理,进而为药物的研发或者疾病的治疗提供新的依据。近年来,伴随着复杂且冗余的生物数据的不断涌入,划分的、层次的、基于密度的、基于模型的和基于网格的传统的聚类算法往往难以或者无法取得理想的聚类准确率。子空间聚类算法以其适用于处理大规模和高维度的数据集而迅速成为研究热点。该方法容噪性高、鲁棒性强、可扩展性优,已在人脸聚类、运动分割和手写字体识别等场合中展现出良好的应用前景。然而,当直接将其应用于生物信息挖掘时,由于其忽略了生物数据内在关联的结构特征,势必将造成可解释性差和聚类效果不佳等缺陷。为此,本文在低秩表示的子空间聚类框架中嵌入了Lasso方法,提出了具有双层面表达机制的子空间聚类算法,同时发展了相应的快速求解方法,并将其成功应用到小鼠体感皮层和海马CA1的单细胞RNA序列聚类分析中。本文主要的研究内容和创新工作归纳如下:(1)提出了一种新颖的迹群Lasso(TGL)方法,利用迹Lasso方法和群Lasso方法融合的策略,实现了兼具变量水平的稀疏性、预设组稀疏性和自动组稀疏性的降维过程。在UCI的分类数据集上执行分类实验,结果表明本文所提的方法在分类精度和基因选择能力上相对于其它两种Lasso变体方法均更加优越。(2)提出了一种基于TGL的子空间聚类(TGLSC)算法,采用了结合样本和特征双层面的线性表达机制,使得聚簇方案得以在样本和特征两者的子空间下协同进行。在人脸聚类和运动分割的聚类数据集上执行聚类实验,结果表明本文所提的算法在准确性和稳定性等多个方面与其它五种子空间聚类算法相比总体上性能最佳。(3)针对所提的TGLSC算法的目标函数,引入了最为常用的交替方向乘子法(ADMM)对其进行分布式求解,并对来源于小鼠的体感皮层和海马CA1区域的单细胞RNA序列实行聚类分析,探索和揭示了若干生物科学的信息和规律。