基于stacking集成学习的宫颈癌预警模型

来源 :重庆医科大学 | 被引量 : 0次 | 上传用户:rambo527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的宫颈癌是全世界女性最常见的恶性肿瘤之一,且早期存活率高。所以常规的子宫颈筛查可以较早识别疾病,降低宫颈癌的发病率和死亡率。但是欠发达地区通常没有足够的医疗资源用于筛查。因此,本研究旨在开发一种基于人口统计学、行为和临床因素的预警模型,该模型可用于识别患宫颈癌的高危女性,以优化欠发达地区的宫颈筛查策略,更好地利用有限的医疗资源。方法机器学习在开发预测模型中起着重要作用。然而,过度拟合是机器学习中的一个常见问题,特别是在数据有限或缺失的情况下。Stacking集成学习(SIML)是一种先进的最大似然学习技术,它将多种学习算法结合起来以提高预测性能。本研究使用来源于UCI公开数据库中的858名在委内瑞拉医院筛查宫颈癌妇女的数据开发SIML算法。将该数据通过随机森林填补和特征选择的方式构建专家数据集,然后随机分为用于算法开发的训练数据(80%)和用于验证算法的测试数据(20%)。随机森林模型和单因素Logistic回归用于筛选宫颈癌的预测特征。在训练集上构建基于5种类不平衡处理方法的随机森林模型,并选择其中最优的类不平衡处理方法;之后将最优类不平衡处理后数据用于12种机器学习模型的训练(Tree Bag、RF、Xgboost、Ada Boost、SGB、Mon MLP、Reg Logistic、SLDA、KNN、LMT、Gauss Pr Radial、SVMRadial),并在验证集中比较12种模型的预测性能。通过对模型的性能综合评价(熵值法)和相关性检验,选择预测效果优良且相关性弱的模型作为基模型,LMT作为结果分类器组合Stacking集成结构;最后在外部验证集中比较不同调谐参数下Stacking集成模型的表现,选择具有实用价值的模型。结果随机森林模型确定了18个预测宫颈癌发生的特征,荷尔蒙避孕药的使用被认为是最重要的1因素,其次是怀孕次数、吸烟年限和性伴侣数量。在基于5种类不平衡的随机森林模型中,选择SMOTE作为解决数据类不平衡处理的方法,将SMOTE处理后数据用于12种机器学习算法的建模,最终以LMT为结果分类器,Tree Bag、Mon MLP、Xgboost为base分类器的LMT-Stacking模型对宫颈癌高危人群的预测效果最好:在验证集中,“LMT Stacking_1”模型的统计指标为0.818的灵敏度,0.819的特异度,0.368的F1值,0.230的F2值和0877的AUC.“LMT Stacking_2”模型的统计指标为0.909的灵敏度,0.781的特异度,0.357的F1值,0.223的F2值和0.876的AUC。结论这项研究表明,SIML可用于准确识别处于患宫颈癌高风险的妇女。该模型可以利用来源于询问或电子病历方式的数据,例如人口统计学、行为模式和历史临床数据,优化筛查间隔和护理计划,以达到个性化筛查的目的。
其他文献
目的:探讨肾动脉栓塞术(Renal Artery Embolization;RAE)联合后腹腔镜治疗T2期肾癌的可行性和安全性。方法:临床资料来自我院泌尿外科2015年1月1日至2020年1月1日收治的51例单侧肾癌住院患者,其术前分期均为T2。其中21例患者手术方式为RAE联合RLRN(介入组),余30例仅行RLRN(对照组),介入组患者在栓塞术后3天内行后行外科手术。结果:收集的51例患者中仅
目的:脊柱内镜手术通道建立尤为重要。本文将介绍一项用于胸椎内镜手术穿刺和定位的新技术:“锚定技术”,并客观评价其在经皮胸椎内镜治疗胸椎黄韧带骨化症中的应用价值。方法:回顾性分析2016年10月至2019年10月,我科采用结合“锚定技术”的经皮胸椎内镜手术治疗的16例单节段TOLF患者的临床资料,其中T6/7节段1例,T9/10节段4例,T10/11节段8例,T11/12节段3例,记录手术时间、术中
背景与目的:血肿周围水肿(Perihematomal Edema,PHE)是导致脑出血患者预后不良的重要因素,但至今尚缺乏理想的相关血肿周围水的影像学参数作为评估PHE的指标。本研究提出应用ICH后72小时PHE的平均Hounsfield值作为预测不良临床结果的指标,并通过回顾性对照研究,验证和分析ICH后72小时PHE的平均Hounsfield值能否成为评估预后的独立因素。方法:ICH患者来自三
目的 通过检测非孕妇女、足月待产、先兆临产与临产时孕妇血清皮质醇的水平,探讨血清皮质醇水平与临产启动的相关性。方法 运用量子点免疫层析法测定育龄期非孕女性的血清皮质醇(对照组),以及足月妊娠未临产孕妇血清皮质醇(待产组),足月妊娠先兆临产(先兆临产组)及临产孕妇(临产组)血清皮质醇。结果 与对照组(7.83±4.78ug/d L)相比,待产组血清皮质醇(17.7±3.75ug/d L)及先兆临产组
目的:为减少侵入性检查的次数,提高超声诊断的准确性,本研究旨在通过基于临床特征及超声成像建立宫腔粘连诊断评分表,来预测有无宫腔粘连及宫腔粘连的严重程度。研究对象及方法:回顾性分析我院2016年5月至2019年9月因月经减少、闭经或临床不孕等因素行宫腔镜检查患者的临床特征及影像学资料。行logistic回归分析,筛选、赋值,建立并验证宫腔粘连诊断评分表。并进行一致性检验。统计分析采用软件SPSS 2
目的食管癌是常见的消化道肿瘤也是最致命的癌症之一。由于早期无明显临床症状,晚期手术预后效果差,导致食管癌患者总体生存率低。因此,进行准确的预后预测是提高生存率的关键之一。本文旨在通过对食管癌的高通量开源数据进行数据挖掘,筛选出重要基因作为食管癌预后相关的潜在生物标志物,以期为食管癌的预后和诊疗提供理论依据。方法基于TCGA数据库中的食管癌RNA-seq数据及其临床资料,运用R软件中DESeq2和W
目的比较两种切割活检针在CT引导下经皮肺穿刺活检中的应用,评估二者在诊断准确率、并发症发生率等方面的差异,探索CPLB中导致气胸发生的危险因素。方法回顾2014年1月至2019年6月于重庆医科大学附属第二医院行CT引导下经皮肺穿刺活检术的414例患者临床相关资料,将其分为两组:半自动切割活检针组(Super-core TM针组)、全自动切割活检针组(BARD Magnum针组),其中Super-c
背景免疫检查点抑制剂(Immune checkpoint inhibitors,ICIs)为代表的免疫疗法显著提高了晚期非小细胞肺癌(Non-small cell lung cancer,NSCLC)患者的生存,但老年人作为晚期NSCLC的主要群体,伴有免疫等机能的减退,ICIs在老年NSCLC患者中的疗效尚未明确,本研究以65岁作为分界值,对不同年龄晚期NSCLC患者应用ICIs的临床疗效进行系
目的:比较胸腔镜下楔形切除术和肺段切除术这两种手术方式的安全性和临床疗效,为临床选择做出参考。方法:检索PubMed、Embase、The Cochrane Library、CNKI数据库、万方数据库2020年12月之前发表的关于胸腔镜下肺楔形切除术与肺段切除术治疗早期肺癌比较的文献。纳入的非随机对照研究的方法学质量评价按New castle-Ottawa Scale(NOS)标准进行评价。使用C
目的本研究主要通过Meta评价长链非编码RNA表达谱对胃癌的诊断价值。方法检索CNKI、万方、PubMed等常规的数据库,进而收集和整理相关英文文献,并提取有价值的资料信息。通过“诊断性研究的量表评价(QUADAS)”对文献质量展开客观评析,并利用Meta-Disc 1.4和Stata 12.0工具对得到的数据进行统计计算,通过Deek’s漏斗图检测lnc RNA表达谱诊断胃癌的发表偏倚。结果总共