论文部分内容阅读
目前我国癌症发病率一直处于上升趋势,Chen etal.(2016)[]在文章《Cancer Statistics in China,2015》中指出,估计中国2015年有429.2万例新增癌症患者,相当于平均每天新增1.2万例。由于癌症致死率非常高,故癌症的早期确诊对治疗非常重要。随着信息科技和医疗技术的不断发展,得益于基因微阵列技术的进步,癌症研究也不断取得新的进展。目前癌症的诊断方法主要有两种:第一种是临床诊断;第二种是DNA检查,即基因微阵列技术,该技术主要原理是先对要研究的目的基因的互补核酸序列进行标记,然后使标记后的核酸序列和目的基因杂交,最后采用生化检测等方法观测杂交结果,从而对比不同组织或者细胞的同一基因的表达情况的差异,用于癌症诊断。临床诊断方法的缺点在于大部分癌症患者的早期临床症状并不明显,所以许多癌症在早期临床诊断时候并没有被发现,这就耽误了病人的治疗时间。而DNA检查是通过基因进行,可以在早期对癌症进行较好的甄别。不过由于人类的基因数量庞大,想要区分每个基因负责表达的功能并不是一件容易的事情。本文尝试将机器学习方法中的支持向量机、随机森林和多元统计的向后剔除法结合起来对结肠癌基因数据进行分析,希望可以找出较少的致癌基因对癌症进行判别。随机森林可以计算出每个特征对于分类的重要性,所以本文使用了随机森林方法对特征进行筛选。但是由于随机森林在建立各棵决策树中对样本和特征选取的随机性,其计算出的特征重要性将受到噪声数据的影响,可能出现较重要的特征被噪声淹没的现象。所以为了减少噪声对结果的不良影响,在随机森林的基础上结合了多元统计中的向后剔除法思想,即重复建立随机森林,每次将特征变量重要性最小的一定百分比去掉,循环重复直到剩下所需要的特征。这个百分比的确定还应该将特征基数的影响考虑进去。最后,在用随机森林筛选特征变量后再采用支持向量机判别。本文结合了随机森林、多元统计中的向后剔除法和支持向量机方法,在处理不同任务的阶段充分发挥了每个方法的优势。经过对结肠癌基因数据的实证研究,本文主要结论如下:1、特征筛选部分,本文分别用t-test方法、简单随机森林、随机森林向后剔除法三种方法对2000个基因进行特征筛选,并对比分析了随机森林向后剔除法筛选的前20个基因和t-test检验方法筛选的前20个基因,其中只有8个基因相同,所以这两种方法筛选特征的结果存在较大差异。2、判别分类部分,本文采用支持向量机方法,分别使用经t-test、简单随机森林、随机森林向后剔除法三种方法筛选的前20个特征基因对检验样本进行判别分类。结果显示,使用简单随机森林筛选的特征进行分类的结果明显优于t-test的分类结果,所以随机森林方法相对于t-test而言在特征筛选方面更具优势。3、在使用随机森林向后剔除法筛选的前19个基因特征对检验样本进行分类时,分类准确率达到了 100%,而使用简单随机森林和t-tset方法筛选的前20个基因对检验样本进行判别,结果准确率最高只有90%。所以随机森林向后剔除法特征筛选效果明显优于t-test方法和简单随机森林方法。随机森林向后剔除法是对随机森林的改进,在提高分类准确率的同时能缩小特征集合。4、随机森林向后剔除法和支持向量机方法结合起来应用在癌症基因数据分析中效果显著,实现了从数目庞大的基因数据里面筛选极少的致癌基因从而对癌症判别分类的目的。本文创新点:1、将随机森林、多元统计的向后剔除法和支持向量机的统计机器学习方法相结合对数据进行分析处理,充分发挥了随机森林在特征筛选和支持向量机在处理低维线性不可分的问题上的优势作用。2、在简单随机森林的基础上结合向后剔除法,重复建立随机森林,剔除变量重要性最小的一定百分比的特征,直到特征个数减少到目标特征个数。这在一定程度上减少由于简单随机森林的随机性和大量噪声对简单随机森林特征筛选结果的不良影响。3、在随机森林结合向后剔除法进行特征筛选过程中,根据不同的特征基数选择删除不同的百分比特征,进一步提高随机森林向后剔除变量法筛选特征的能力。