【摘 要】
:
目前最新的一代测序技术是单细胞测序,scRNA-seq(single cell RNA sequencing:单细胞RNA测序)是其中一项代表性技术。该技术可以解决细胞群体异质性的问题,有助于发现和定义新的细胞亚型。通常采取的方法首先对数据进行质量检查、填补缺失数据及标准化等预处理,接着进行聚类分析,并从聚类结果中筛选出差异表达基因,最后进行细胞类型富集分析和转录动力学分析或其他进一步的生物学分析
论文部分内容阅读
目前最新的一代测序技术是单细胞测序,scRNA-seq(single cell RNA sequencing:单细胞RNA测序)是其中一项代表性技术。该技术可以解决细胞群体异质性的问题,有助于发现和定义新的细胞亚型。通常采取的方法首先对数据进行质量检查、填补缺失数据及标准化等预处理,接着进行聚类分析,并从聚类结果中筛选出差异表达基因,最后进行细胞类型富集分析和转录动力学分析或其他进一步的生物学分析。在整个分析过程中,对经过预处理的数据进行准确的聚类分析是关键且具有挑战性的任务。本文提出了一种流程化分析方法:LAK(Lasso And K-means based single cell RNA sequencing data analysis pipeline:基于Lasso和K-means的单细胞RNA测序数据流程化分析方法),将数据预处理、标准化、特征提取及聚类、差异表达分析及细胞类型识别等单细胞聚类分析流程整合为一个集成工具。本文重点聚焦于聚类环节,改进完善现有方法,以提高聚类结果及后续细胞类型识别的准确性。对其他环节,本课题对现有成熟方法进行分析、比较、筛选,采用准确度高、稳定性好、计算开销小的方法纳入分析流程。在聚类环节,本文通过将Lasso正则项作为特征选择方法融入到聚类算法中,缩小了备选基因的范围,提取出对聚类有实际影响的基因,因此不需要额外的基因筛选或降维方法,可以直接应用于单细胞测序数据。另外,本文针对聚类算法中的参数选择问题,提出了一种二分查找算法,根据数据的大小进行最优参数自适应查找。与其他聚类方法相比,LAK中的聚类方法在公开的scRNA-seq数据集上具有较好的稳定性和准确性。另外,本文在一份公开数据集上应用了完整的分析流程,给出了每一个细胞的具体细胞类型,得到了与相关生物学文献相一致的结论,进一步验证了整个分析流程的准确性。
其他文献
<正>2014年10月,李克强总理出访欧洲三国,德国是他此次欧洲之行的第一站。访问期间,李克强总理与默克尔总理共同主持第三轮中德政府磋商,双方签署50项商业和政府间协议,双边
植物膜蛋白质组学的研究是蛋白质组学研究者关注的焦点之一,但由于膜蛋白具有低丰度、疏水性等特点,因此膜蛋白的富集提取、分离鉴定存在很大的难度。从膜蛋白的富集提取、分
自上世纪七十年代末,中国实行对外开放以来,国家加大了与其他国家的经济文化往来,国内各行各业发展势头越发迅猛,国有企业作为国家的中流砥柱,为了更好的适应时代发展的需要,
慢性病已成为当今中国面临的重大公共卫生问题和社会问题。在农村地区,慢性病形势尤为严峻。通过知情人深入访谈、半结构焦点小组访谈等定性研究方法,旨在进一步探究和解释我
<正>据《江苏省志·宗教志》载:“江苏佛教,始于东汉。《后汉书·陶谦传》‘谦使笮融,督广陵’,‘大起浮屠寺,上累金盘,下为重楼,又堂阁周四,可容下三千许人。作黄金涂像,衣
正则表达式匹配在计算机科学中有着广泛的应用。非确定性有限状态自动机(NFA)是实现正则表达式匹配的重要方法,主流的非确定性有限状态自动机一般分为两类,一类为Thompson架
对短时强降水主观临近预报的主要思路和方法进行综述。(1)短时强降水(flash heavy rain)是指1 h雨量在20 mm或3 h雨量在50 mm以上的降水事件。短时强降水事件的识别主要由雨
探讨了高等院校经济类与非经济类专业在开设微观经济学课程时,在教学内容、教学方法及考试等方面的新尝试,阐述了该课程运用新的教学理念,使课堂实验教学有了一定的发展空间,
电子商务专业学生的就业问题已经成为电子商务培养中的重要问题。其中商务素养的培育至关重要。本研究从就业为视角,分析了企业的电子商务人才需求层次,从中提炼出商务素养的
<正>有关西南营街区的记载,最早见于明嘉靖《通州志》,志中称其方位在"州治西南",其范围北到西大街,今人民中路;东至南大街;西到西城南段城根,今环城西路南段;南至南城西段城