论文部分内容阅读
随着癌症类型的增多和癌症患者规模的增多,针对癌症的研究不断深入。同时,由于基因组学的发展,基因芯片和基因测序技术逐渐成熟,运用基因表达谱对癌症的分类预测和靶标确定的研究也日益增多。头颈癌目前已成为全球第六大高发癌症,它是预后较差的肿瘤,五年存活率不足50%,具有较强的侵袭性、较高的转移率和较高的术后复发率。目前针对头颈癌基因层面的研究少之又少,因此针对头颈癌从基因层面进行研究对头颈癌的治疗和术后预测具有重要意义。由于基因表达数据均具有高维、小样本的特点,而其中大部分都是管家基因,只有极少数是与癌症相关的组织特异性基因,因此在对癌症发展机理进行研究和构建预测模型进行预测前需要对基因进行筛选。本文针对高维小样本基因数据提出两种特征选择方法以完成癌症特异性基因的选择。本文的主要研究工作和创新性如下:(1)针对癌症数据普遍存在的样本分布不均衡现象,在模型训练时采用分层K折交叉验证,以确保训练集和测试集正负样本比例与原始数据集保持一致,同时在分类性能评估上,用平均分类准确率替代了分类准确率,其对少数类样本和多数类样本给予相同的关注,对少数类样本的性能变化更敏感。(2)针对fisher score过滤式选择算法只考虑到特征与类别的相关性,未考虑到特征与特征间的冗余性的缺陷,提出基于距离度量和非支配理论的最大相关最小冗余算法,在对特征运用fisher score进行排序预选后,通过对特征相似度进行度量,基于非支配理论去除当前特征下的可支配特征,逐次对剩余特征进行操作,最终获得具有最大相关最小冗余的特征解集。其与基于fisher score和近似马尔科夫毯理论的特征选择算法相比具有更高的搜索效率同时其选择出的特征子集也拥有更好的分类性能。(3)结合多目标优化思想求解特征选择问题。特征选择其实就是在尽可能降低特征维度的情况下保留尽可能好的特征集合,而特征集合的好坏此处用模型的分类性能来评估。本文针对多目标粒子群优化算法进行改进,针对随机初始化存在的种群不可预测问题,提出基于fisher的种群初始化优化策略,以在初始化后尽可能快的搜索到全局最优解;针对迭代后期局部搜索能力不强问题,对粒子速度更新公式进行改进,同时对粒子实施突变策略以便跳出局部最优。经理论研究与实验证明,该方法相对于其他多目标优化算法而言迭代速度更快、所选择的特征维度更小,性能更好。