面向肿瘤基因组学数据的分类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:c2825015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是严重威胁人类生命健康的主要疾病之一,其发生发展是多个基因逐步改变的多阶段过程,尽早确诊能够有效防止肿瘤进一步恶化,提高患者的生存机率。基因芯片技术能够检测细胞中大量基因的表达水平,对肿瘤基因表达谱数据进行正确分类将有助于肿瘤的早期确诊和治疗。肿瘤基因表达谱数据通常具有高维度、小样本以及类别不平衡的特点,对其进行有效的特征提取并构建考虑类别不平衡的分类模型对提高肿瘤分类准确率十分重要。本文主要从以下两个方面开展研究:(1)针对数据的高维小样本特点,采用不同的流形学习方法提取高维数据的局部和全局特征,获取数据中潜在的低维流形,达到去除冗余和数据降维的目的;并构建高斯过程分类器对得到的低维特征进行分类;实验结果表明,等距特征映射算法和基于监督的局部线性嵌入算法得到的低维流形能够更加完整地保留数据结构特征,结合流形学习的高斯过程分类方法有效地提高了肿瘤基因表达数据的分类准确率。(2)针对数据的类别不平衡特点,通过对似然函数赋予与样本数量相关的权重来平衡各类样本的重要性,以增加少数类样本的分类决策权。实验结果表明,该方法有效保留了数据的原始分布特性,一定程度上解决了由于类别不平衡导致的分类结构倾向多数类的问题,在总体分类性能上优于传统算法,在算法时效性上优于上采样技术等平衡不同类别样本数量的方法。最后,针对SRBCT、ALL-AML-3和Brain肿瘤基因表达谱数据集,通过基于似然函数加权的高斯过程多分类方法实现肿瘤数据分类,采用总体分类准确率和单类最低分类准确率两个指标对该方法进行评价,实验结果表明本文方法相比于其他多分类方法能够得到更好的分类效果,同时有效解决了数据中存在的类别不平衡问题。
其他文献
从2001年开始,连续两年用激光辐照加电场、磁场激发对滇"三角大香糯"进行了育种研究和各生育期的田间试验观测,并得到了一些有较优变异的稻种.用喇曼光谱分析和量子力学方法
树苜蓿Chamaecytisus palmensis是一种具有饲用、观赏和水保等多功能的长绿豆科灌木树种,2002年首次从澳大利亚引进甘肃,且分别在该省的定西、天水和武都进行了各种育苗试验
为明确杨凌区紫花苜蓿叶枯病病原菌种类及其生物学特性,为该病害在生产中的诊断及防治提供理论依据,本研究对采自陕西省杨凌区苜蓿叶枯病病样进行致病菌分离、纯化、分子鉴定
随着经济飞速发展,“互联网+”时代的到来,传统的物理毁坏已经不能适应新型犯罪,这就使得何为“毁坏行为”成为了司法实践和专家学者争论的焦点。当然,毁坏行为是刑法中的重