论文部分内容阅读
目的随着肺癌发病率及死亡率逐年增长,肺癌已成为严重威胁人类健康的恶性肿瘤,目前成为亟待解决的公共卫生难题。数据挖掘技术在解决大样本和多参数问题的优势使其在医学领域得到广泛研究。课题组近年来一直致力于肺癌辅助诊断研究,筛选出癌胚抗原(carcinoembryonic antigen,CEA)、神经元特异性烯醇化酶(neuron specific enolase,NSE)、胃泌素、唾液酸(sialic acid,SA)、铜锌比值(Cu/Zn)、血清钙离子、DNA甲基转移酶1(DNA methyltransferase 1,DNMT1)、DNA甲基转移酶3A(DNA methyltransferase 3A,DNMT3A)、DNA甲基转移酶3B(DNA methyltransferase 3B,DNMT3B)和组蛋白去乙酰化酶1(histone deacetylase,HDAC1)等10余种肺癌生物标志,但这些生物标志如何有效地组成肿瘤标志物群用于肺癌辅助诊断还有待于进一步研究。该论文依据前期筛选的10项肺癌生物标志,联合流行病学资料、临床与影像资料,应用人工神经网络(artificial neural network,ANN)技术建立了肺癌辅助诊断系统。此研究将探讨这10项指标对辅助诊断的预测效果;同时重建人工神经网络(artificial neural network,ANN)模型,并与决策树(decision tree,DT)C5.0模型、支持向量机(support vector rmachine,SVM)模型及判别分析模型比较;筛选出优化的预测模型为后续研究打下基础,以期提高肿瘤标志对肺癌辅助诊断价值,达到对肺癌辅助诊断和鉴别诊断的目的。对象与方法1.研究对象:180例肺癌组和243例肺良性疾病组样本均取自郑州大学第一附属医院,所有样本均经细胞学或组织病理学诊断。2.实验方法:采用放射免疫法检测血清中CEA、NSE和胃泌素水平,ICP-MS检测血清铜、血清锌的浓度,运用改进的间苯二酚显色法测定唾液酸浓度,利用全自动化分析仪测定血清钙浓度,采用ELISA测定DNMT1、DNMT3A、DNMT3B和HDAC1含量。3.数据挖掘:样本按3:1的比例随机分成训练集和预测集,运用ANN技术、C5.0技术、Fsher判别分析和SVM建模,然后对样本进行预测,应用ROC曲线对这4种模型的预测结果进行比较,4模型均采用Clementine 12.0软件实现。4.运用SPSS21.0软件进行统计学分析。根据定量资料分布类型选择表示方法及统计学检验方法,定性资料组间比较用χ2检验;检验水准α=0.05。结果:1.肺癌组和肺良性疾病组中CEA、胃泌素、NSE、DNMT1、DNMT3A和DNMT3B差异有统计学意义(P<0.05),其中肺癌组肿瘤标志物水平高于肺良性疾病组。2.增加发热出汗、咳痰、痰中带血、肺部感染及结节5项临床与影像资料可以有效地提高辅助诊断模型的准确率。3.辅助诊断模型最好的是优化全部指标的ANN模型;ROC曲线下面积(AUC)较高的有六种模型,但差异无统计学意义(P>0.05)。结论综合运用流行病学特征(性别、年龄、吸烟史)及临床症状(咳痰、痰中带血、发热出汗及肺部感染)与肿瘤标志(DNMT3B、DNMT1、HDAC1、NSE、胃泌素和CEA)建立的人工神经网络模型对肺癌辅助诊断效果较好,有望用于临床肺癌辅助诊断和鉴别诊断。