论文部分内容阅读
目前临床早期筛查前列腺肿瘤主要依靠对前列腺特异性抗原(PSA)进行检查诊断,但是通过PSA诊断前列腺肿瘤的灵敏度和特异度不是很理想。本文采用机器学习算法和数据挖掘方法,通过对临床医学科学数据中心(北京301医院)的前列腺肿瘤数据集进行分析研究,联合PSA和血常规、生化检查、尿常规等检查指标,筛选前列腺肿瘤风险因素。首先通过随机森林模型对数据进行缺失值处理,通过统计分析方法进行单特征分析以及联合特征分析,利用统计分析的结果组合出有临床意义的特征来提高模型的泛化能力;通过皮尔森相关系数选择与目标相关性大的特征来构建模型,同时,通过SMOTE算法对数据集进行上采样用以解决样品不平衡的问题;再将预处理过的样本集作为预测模型的训练和测试样本。预测模型分别采用基于随机森林算法、AdaBoost算法、XGBoost算法构建的模型。本文通过实验对比来优选预测模型,通过召回率、精确率、f1-score、ROC曲线等指标进行评估;根据实验结果和混淆矩阵进行综合评估,构建基于XGBoost算法的前列腺肿瘤诊断预测模型,其召回率、精确率为0.98,0.91,给出PSA(游离)的比率、PSA(总)、无机磷、PSA(游离)、载脂蛋白E的比率等特征的重要性以及临床意义,通过实验对比探究不同输入特征数量对于基于XGBoost预测模型指标的变化情况,从而为优化临床诊断数据提供科学依据。本文提出基于SMOTE处理的XGBoost模型应用于前列腺癌的诊断,通过对比实验,挖掘出诊断前列腺癌的特征重要性以及临床意义。