论文部分内容阅读
癌症以其高死亡率严重影响我国居民的生命健康,在我国癌症每年导致上百万人死亡。癌症早期治愈率高但由于其没有明显的临床症状导致大量患者因延误治疗时机而死亡,因此早发现、早治疗是防癌治癌的重要准则。目前癌症筛查主要采取影像学手段,医师通过对CT等影像资料观察分析做出诊断,这使得癌症筛查严重依赖医生的临床经验,误诊、漏诊率较高导致大量癌症患者延误治疗时机。随着生命科学的发展,基因芯片技术应运而生,基于基因芯片的癌症早筛技术具有不依赖临床经验的特点,因而吸引了许多科研人员的关注。但目前应用基因芯片数据仍面临着许多困难,由于其实验成本高、实验复杂等原因导致数据具有高维度、小样本、高噪声等特点增加了分析利用其数据的难度。本文针对分析基因芯片数据的难点提出了基于遗传算法改进并以支持向量机作为分类器的癌症特征选择与分类方法,改进点如下:1)本算法提出了一种新的混合评价函数,该评价函数包含个体最大相关评价、个体最小冗余评价、个体种群多样性贡献评价,这些评价的加权和通过种群代数相关的系数与基于分类器准确率的评价相结合,该评价函数平衡了种群多样性和收敛速度,能够防止算法陷入局部最优解过早收敛。2)遗传算法中变异算子通过向种群中随机引入基因改善种群的基因多样性。本文依据遗传算法不同阶段种群特点设计了基于优势基因库和全量基因库的变异算子,该算子以一定概率选择一个基因库完成变异操作,选择概率与种群代数相关,使算法前期可以快速引入优势基因,此改进方法均衡了遗传算法的随机性和收敛速度。3)本文分析种群个体发现在算法的中后期,种群中出现大量冗余个体,冗余个体不利于算法继续搜索最优特征子集导致其过早收敛,基于此问题本算法在遗传算法中添加了种群去重操作,该操作能够去除种群中的重复个体改善种群个体和基因多样性。