论文部分内容阅读
目的1.探讨数据挖掘决策树在结直肠癌数据分析中的应用。2.应用决策树模型预测结直肠癌患者术后生存时间。方法1.收集2010年1月—2011年12月期间,于福建医科大学附属第一医院胃肠外科二区的结直肠癌患者的临床数据资料,所有病人均经影像学及术后病理确诊,并以此建立数据库软件平台。2.筛选出具有完整资料的病例,以性别、年龄、CEA、围手术期输悬浮红细胞量、手术方式、手术时间、术中出血量、肿瘤生长部位、肿瘤分化程度、原发肿瘤(T)、区域淋巴结(N)、远处转移(M)、远处转移时间、术后化疗、其他治疗等15项与患者预后相关的因素建立excel表格;对excel表格中各变量予以数值标注,计算出各变量对于数据样本的信息增益值,并筛选出与患者术后生存时间相关性较密切的预测变量;3.建立模型数据流,并根据信息增益值以C5.0算法建立决策树模型,选择分类算法,采用分割样本验证法,使用随机分配,训练样本量为90%,验证样本量为10%,共进行10次训练、验证。4.输出预测结果,并由散点图对患者术后预测生存时间与实际生存时间进行比较与验证;结果1.建立了福建医科大学附属第一医院胃肠外科二区2010年1月至2011年12月期间结直肠癌数据库软件平台;2.建立结直肠癌患者术后生存时间决策树预测模型,输出结果显示:训练样本的准确率为69.8%,验证样本的准确率为75.8%。3.通过预测生存时间与实际生存时间散点图比较对结果进行验证,验证结果显示:预测生存时间与实际生存时间具有较高符合度。结论1.决策树模型可以用于结直肠癌患者术后生存分析。2.决策树模型可以对结直肠癌患者术后生存时间进行个体化预测。