机器学习与模式识别在肺癌基因组学分析中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:ychh1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今科技日新月异,现代测量技术和计算机技术的发展,以及网络的普及化、日常化,各行各业都可获得大量的数据信息。在生物领域随着人类基因组计划的完成和一系列高通量生物技术的发展,越来越多的全基因组数据(如甲基化、拷贝数变异、突变、表达量)向研究者免费开放。近年来,机器学习算法在癌症的相关研究中得到了广泛应用,特征基因的识别成为癌症相关研究的重点。在全球范围内,肺癌是最普遍的癌症类型,致死率常年居于高位。肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)是非小细胞肺癌的两种主要亚型,病人的临床表现和预后响应通常截然不同,肺腺癌和肺鳞状细胞癌的准确分类是对病人有效管理和组化疗法正确选择的前提。在肺癌的所有致病因素中,吸烟是头号风险因子。90%的肺鳞状细胞癌患者均具有吸烟史,相比而言肺腺癌与病人吸烟状况的关系尚不明确,仍有相当数量的不吸烟者患有肺腺癌。分析烟草吸入量与肺腺癌患者的关系,研究如何合理界定吸烟对肺腺癌病人的危害,并通过分析整合吸烟和非吸烟患者的核苷酸突变信息识别与烟草相关的特征基因,是进一步深入解析肺腺癌肿瘤发生发展致病机理的理论基础。为此本文利用机器学习肺癌的基因组学数据进行模式分类。首先从全基因组角度分析肺腺癌与肺鳞癌拷贝数变异模式的异同,集成弹性网络、偏最小二乘算法和朴素贝叶斯算法对全基因组拷贝数进行模式识别,获得包含33个特征基因的分类器,该分类器能够有效的将肺腺癌样本和肺鳞状细胞癌样本识别分离。其次从全外显子角度对肺腺癌吸烟和不吸烟患者的突变信息进行提取分析,基于Z-curve理论创造性的将基因突变频率和序列信息(包括基因片段缺失和插入)提取整合为一个新特征即TTZ-feature,克服当前对突变信息的提取局限于突变频率和突变负荷的现状,通过偏最小二乘算法进行变量筛选和分类建模获得了34个特征基因,构建的34-特征基因分类器的预测得分能够准确反映肺腺癌患者的吸烟程度,而且提出的突变提取方式为相关研究提供了新的数学工具。
其他文献
在过去十年中,Ⅲ-Ⅴ族氮化物半导体在光电和电子设备技术应用已经引起了相当大的关注。其中氮化铝(AlN)与氮化铟(INN),具有较高的热导率,熔点高,大体积弹性模量等优良特性,同
本文聚焦于构建一个完备的黄金价格模型并运用于理财产品设计,主要完善了B-S模型在描述黄金价格时遗漏的两大特点:大宗商品价格的随机便利收益和方差,宏观经济环境改变对黄金
在国家大力促进青少年儿童积极参与体育健身,提高青少年儿童体质健康水平,开展全民健身的大环境下,参与羽毛球培训的青少年儿童越来越多。本研究为了解少儿体质健康水平及羽毛球教学训练对少儿各项身体素质的影响,探究传统羽毛球教学训练模式与羽毛球和体适能相结合的羽毛球教学训练练模式对少儿各项身体素质影响的差异性。运用文献资料法查阅相关文献,进而了解本领域的研究现状和前沿动态,为本文的研究提供充足的理论依据,同
德宏位于我国的西南边陲,是美丽的孔雀之乡。这里夏无酷暑、冬无严寒、四季果香、花开终年,素有“植物王国”、“物种基因库”的美誉。这里生活着傣族、景颇族、阿昌族、德昂
1.目的:本研究通过临床病例分析,观察滋肾通络汤治疗原发性轻、中度高血压病肾虚血瘀证的临床疗效,比较治疗前后的患者的偶测血压、心绞痛症状及心电图改变、中医临床症状评分及安全性,探讨滋肾通络汤的临床应用价值。2.方法:本研究根据《中药新药临床研究指导原则》[1],将符合原发性高血压病肾虚血瘀证患者60例,应用随机数表法随机分为对照组30例和试验组30例。对照组患者予苯磺酸左旋氨氯地平片(施慧达)治疗
苝酰亚胺(Perylene diimide,PDI)作为典型的稠环芳烃化合物,具有大的平面共轭结构、优异的热稳定性、光稳定性和化学稳定性。此外,苝酰亚胺衍生物还具有高荧光量子产率,在可见光区域具有强吸收,并且光电性质可调,在太阳能电池、荧光探针和非线性光学等领域都具有重要的应用价值。本论文以1,6,7,12-四氯-3,4,9,10-苝四甲酸二酐为主要原料,在苝酰亚胺的氮位引入烷基链和硅氧烷等不同取
目的:基于中医基础理论,通过对TKA患者施行TEAS研究在ERAS方面的作用,在中医方面为临床中如何提高TKA术后患者的康复速度提供一种新的思路。方法:符合标准的60例病人,接受同一手术团队采用相同手术方式和常规治疗并随机分为实验组30例和对照组30例。实验组采用术后常规治疗及应用经皮穴位电刺激,对照组单纯采用术后常规治疗。治疗时间为术前至术后7天。分别测量并记录术前、术后1、3、7天术侧髌骨上极
当机体受到外界抗原刺激时会产生体液免疫应答,抗原中能被B细胞抗原受体识别并发生结合的序列就被称为B细胞表位。B细胞表位的准确定位对于制备有效的疫苗是非常重要的。通过
近年来,免疫信息学已经成为一个热门的研究领域。表位是免疫系统识别的主要化学物质,它的准确预测是免疫信息学研究中最主要的挑战之一。B细胞表位是位于抗原表面的,能够被抗
下丘脑-垂体-肾上腺皮质(HPA)轴激活是应激反应的最重要特征。皮质酮是由HPA轴分泌的一种激素,对三大营养物质的代谢具有广泛的生理作用。近年来皮质酮对中枢神经系统疾病的