基于机器学习的肺癌预测方法的研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:jzsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是呼吸系统最常见的一种恶性肿瘤。在我国,肺癌的发病率和死亡率都高居第一位。肺癌的早期缺乏典型症状,一旦发现,患者大多处于中晚期且易伴随远处转移,治疗变得非常困难。肺癌死亡率较高的另一个原因是它预后较差,相当一部分患者会在治疗后出现复发,肺癌的早期诊断和预后分析在提高生存率方面具有重要意义。高通量测序技术的发展及分析方法的出现,为肺癌的预测和治疗带来了新的方向。在肿瘤的形成过程中,需要多种基因参与并相互作用,通过高通量测序技术可得到肺癌的全基因表达数据,利用分子学机制研究肺癌的发生和发展,可为肺癌的早期发现和预后诊断提供理论支持。本研究从TCGA(癌症基因组图谱)和GEO两个公共数据库中获取数据集作为研究对象,建立了一套肺癌的“诊断+预测”系统,该系统可以筛选出肺癌的易感基因,将其作为特征构建出肺癌的诊断模型,并判断出肺癌的亚型类型,同时,系统对肺癌患者的恶性程度及康复的可能性做出了预测,可达到较高的精度。针对肺癌的早期诊断,本研究提出了一套基于机器学习的肺癌易感基因筛选及亚型分类模型,首先从TCGA数据库中获取到肺癌的转录组数据及临床信息,运用R语言,结合limma、EdgeR及DEseq三种方法进行差异表达分析,然后通过GO功能和KEGG通路分析进行精确的筛选,确定出肺癌易感基因,进行层次聚类分析并绘制heatmap图。分别通过逻辑回归、决策树、支持向量机、软投票器四种机器学习的方法构建出肺癌预测模型,并将模型在不同方法得到的数据集上进行验证。并且,根据肺癌易感基因判别模型的构建结果选择出对肺癌敏感性较强的模型,构建肺癌亚型分类模型。通过对重要通路中的基因功能进行分析,结合层次聚类热图,可以看到本研究识别出的易感基因能明显区分两类样本,并在肺癌的发生和发展过程中起着关键作用,这对了解肺癌的发病机制和肺癌早期诊断十分重要。针对肺癌治愈可能性的预测,本研究提出了一套基于深度神经网络的肺癌恶性程度及康复预测模型,从GEO数据库中获取肺癌样本作为数据集,采用统计学方法和模型方法结合的特征选择方法选择特征基因,将特征基因喂入深度神经网络进行训练,并采用反向梯度下降算法进行参数梯度更新,该模型的训练时间比其他机器学习算法要长,但能达到更高的预测准确率。通过对肺癌的恶性程度和康复可能性进行预测,可辅助医生安排下一步的治疗计划,对临床治疗有重要的指导意义。本研究的工作基于上述五大模块:肺癌易感基因的筛选、肺癌诊断模型的构建、肺癌的亚型分类、肺癌恶性程度分类及肺癌康复性预测模型,形成了一套肺癌综合预测系统,不仅可以对数据分析和处理,选择出肺癌的易感基因,同时可以完成肺癌的诊断及治疗后康复性的预测,可以帮助患者及早发现病情、辅助医生临床诊断以及指导制定下一步的治疗计划。
其他文献
2013年,国务院从制度上明确了全国股转系统的定位是全国性证券交易场所,能够提供股票交易、股票发行、定增融资、并购重组等资本市场服务。挂牌公司必须纳入证监会、股转公司
对电子与离子的碰撞问题的理论研究一直以来都是原子与分子物理学发展过程中的一项非常重要的课题,其与天体物理、X射线激光以及可控核聚变等的研究密切相关。双电子复合(DR)过
纵览中国农地产权制度的变迁史,农业增长与其相吻合的阶段性特征跃然纸上。但随着农地“两权分离”制度红利的消耗殆尽,已无法再为农业绩效提供内生增长动力,且其所蕴含的农
功能型导电水凝胶在可穿戴设备、创口愈合及组织工程等领域有重要应用价值,以生物兼容性优异的琼脂糖(Agarose)为基质的凝胶材料具有较大实际应用价值,然而琼脂糖凝胶本身不具
人工智能与计算机视觉近年来蓬勃发展,成为互联网行业与工业界的重要组成部分。深度学习算法,特别是卷积神经网络,在人工智能算法中脱颖而出。对于复杂数据集的分析,深度学习
许多小型哺乳动物栖息于季节性变化的环境中,不同的动物有着不同的能量策略来应对冬季的冷胁迫,脂肪组织在动物的能量稳态调节过程中发挥着极为重要的作用。哺乳动物具有两种
现如今,三维重建技术已经得到了长足的发展,无论是硬件方面的提升还是重建算法的进步,都促使生成的点云模型既稠密又精准,但是不可避免的仍存在一些问题:在真实的扫描环境中,
随着科技的发展,各种电子设备在生活中的应用愈发广泛,对人们生活产生重要影响,传感器作为一种感测传输设备,可以利用自身的感知能力将信息传输出去,而光电传感器则是一种非
目的:观察参橘冠心胶囊对冠心病PCI术后气虚痰瘀证患者生活质量及对中医症候积分的影响,并同时分析其对血同型半胱氨酸(Hcy)及超氧化物歧化酶(SOD)的作用。方法:2018年3月至2019年2月,选取广东省中医院大德路总院心血管科门诊及住院部病人,共60例符合纳入标准的冠心病PCI术后气虚痰瘀证患者。对纳入患者随机分为2组,治疗组治疗方案为参橘冠心胶囊+西药常规治疗,对照组治疗方案为单纯西药常规治
一个国家的媒体发展史,从某种程度上说就是这个国家的政治和经济发展史。坦桑尼亚的媒体发展格局不是一夜之间形成的,它经历了殖民时期、民族主义斗争时期、过渡时期和独立时