集成学习在基因表达数据中的分类研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:tandge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从基因层面进行癌症的早期诊断可以有效提高患者的治愈率。但癌症基因表达数据通常存在高维、小样本、高噪声并且类别不平衡等特点,这些特点给分析癌症基因表达数据带来了巨大挑战。采用集成学习方法对基因表达数据进行分析是目前生物医学领域的一个重要研究方向,但是由于基因表达数据的特点以及选择性集成中基分类器的差异性和准确性难以平衡,集成系统中各个基分类器的参数难以优化等问题,集成学习对基因表达数据的分析变得困难。针对以上问题,本文做了如下研究:(1)基分类器之间的差异性和单个基分类器自身的准确性是影响集成系统泛化性能的两个重要因素,针对差异性和准确性难以平衡的问题,提出了一种基于差异性和准确性的加权调和平均(D-A-WHA)度量的基因表达数据选择性集成算法。以核超限学习机作为基分类器,通过D-A-WHA度量调节基分类器之间的差异性和准确性,最后选择一组准确性较高并且组内差异性较大的基分类器组合进行集成。相对于传统的Bagging、Adaboost集成算法,基于D-A-WHA度量的选择性集成算法在多个基因表达数据上提高了1%-3%的精度。(2)提出一种基于差分进化的代价敏感Stacking集成(DE-CStacking)的基因表达数据分类算法,采用随机森林、K近邻、朴素贝叶斯作为Stacking集成的初级学习器,将代价敏感的支持向量机作为次级学习器,初级学习器的输出类概率和原始特征集作为次级学习器的输入,并采用差分进化对这些学习器的参数进行优化。相对于传统的Stacking集成算法,DE-CStacking算法在多个癌症基因数据上AUC值提高了2%-7%。
其他文献
随着信息技术的高速发展,学科之间的交叉融合趋势越来越明显,探索学科间知识交流活动,明确学科结构,对其学科发展具有重要意义。图书情报学是一个交叉性的学科,研究范围和应
随着中国经济的飞速发展,我国居民的个人财富日益增长,个人对财富增值保值的需求也不断提高,于此同时证券公司佣金收入逐年下滑,传统的经纪业务已经没有了以往的优势,因此财
农业保险是世界各国普遍采用的一项强农惠农富农的重要政策工具。随着农业支持保护政策的调整,农业保险在农业政策框架中的地位和作用日益凸显。我国自2004年启动政策性农业
新常态时期,经济增长缺乏动力,产出增速放缓,央行多次下调基准利率,频繁干预宏观经济,导致不确定性走高。不确定性会影响经济主体对未来经济形势的预期进而改变它们的经济行
3D打印是增材制造的重要实现方式,其本质是一种快速成型技术。众多3D打印技术中,FDM型熔融沉积技术(Fused Deposition Modeling,FDM)凭借其结构简单、成本低、运行安全可靠等优点得到了快速发展,但其进一步推广应用却因耗材种类有限、喷头易堵塞、制品精度难控制等问题而受到限制。因此,为解决现有FDM型3D打印设备中存在的问题,本研究设计一种新型桌面级FDM型双螺杆挤出式3D打
学位
出于规避监管约束和应对利率市场化的挑战,我国商业银行具有发展同业业务的巨大动力。同业业务单笔交易规模大,一旦某一笔业务出问题,金融机构的相互关联性使得其对金融系统
小麦脱皮制粉加工技术一直以来是国内外研究的前沿课题,同时也是农业工程领域研究的热点所在。本次研究以FBPY型小麦脱皮机为对象展开,其中小麦脱皮机转子结构参数是该型小麦脱皮机的核心技术之一,同时也是该新型小麦脱皮加工设备的核心部件和小麦脱皮加工过程中最直接的动力来源。但据传统经验设计或理论设计得到的脱皮机转子结构难以满足现代农业精细化、农业机械精密化的要求,其结构仍具有一定的改进空间、且部分结构特性
学位
元胡是一种在浙江、陕西等地普遍种植的中药材,当前元胡收获机械化程度不高,难以实现元胡果实和土壤的高效分离。要实现药土高效分离,首先就要实现对土壤的高效破碎。本文通过探索元胡收获机多级柔性碎土机理,设计多级柔性碎土机构,利用离散元动力学仿真优化设计参数,解决充分碎土和低伤果率之间的矛盾,为设计出一种收净率高、药土分离率高、伤果率低并且轻简化的元胡收获机提供理论基础。本文研究的主要内容包括:(1)在分
学位
目前,对于城市功能区域识别的传统方法主要包括:实地勘探采集、对航拍图或遥感图像进行标注、信息点(Pointof Information,POI)数据采集等。上述几种方法都需要投入极大的人
人口老龄化挑战是人类需要共同面对的全球性问题,建立多层次养老保障体系成为全球应对人口老龄化挑战的普遍做法。习近平总书记在党的十九大报告中指出,要在幼有所育、学有所