基因微阵列数据的特征提取和特征优化在癌症诊断中的应用

来源 :山东轻工业学院 | 被引量 : 0次 | 上传用户:hotheart2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于在缺乏启发性的知识的情况下,遗传算法对于高维的数据的特征提取非常有效,所以遗传算法是基因数据研究中非常重要的算法。而支持向量机是在统计学习理论的基础上发展起来的新的模式识别方法,它不仅考虑了对推广性的要求,而且能够在现有的有限信息的条件下得到最优结果,在解决样本少、高维数、非线性等问题中有许多特有的优势。本实验正是基于这两种理论的优势而提出的。对基因微阵列数据的分析,通常包括以下的内容:对基因数据的预处理;对处理过的数据选取有用的信息或者特征基因;对基因数据进行分析并对结果进行评价。其中在对基因数据进行分析之前,基因数据的预处理非常重要,而数据分析的关键则是对特征基因的选择和提取,因而对数据分析的质量不仅取决于所用算法的有效性,而且也取决于处理过程中所产生的特征基因的数量和质量。同样,最后对基因数据的分析及结果评价也同样重要。本文中对于基因数据的分析,实验采用两种方法进行,并且为了验证方法的有效性,实验利用白血病数据集和结肠癌数据集进行验证。具体的实现方法如下:实验第一种方法是基于支持向量机分类的分析方法。为了获得较好的实验结果,按照如下步骤进行:首先对基因数据进行预处理,将白血病数据集分为训练集和测试集两部分,然后分别利用t-test检验方法和Wilconxon检验方法选取白血病训练数据集的特征基因,减少数据的维数和无关的数据信息。然后利用选取的特征基因训练支持向量机,并利用白血病的测试数据集合进行检验,通过利用样本划分法对学习的结果进行评估。为了进一步验证所提方法的有效性,实验又利用结肠癌数据集按照同样的步骤进行验证,实验结果进一步证明了所提方法的有效性。为了能够得到选取的优化特征基因,实验采用的第二种方法是基于遗传算法对特征基因进行优化的方法,在对数据进行标准化和降低维数后,利用遗传算法选取特征基因,最后利用判别分析方法对数据进行学习,通过在白血病数据集中的应用,对学习的结果进行分析和评估,判断所用方法具有良好的效果。
其他文献
<正>脑微出血(cerebral microbleeds,CMBs)是MRI下可见的出血性微小血管病的新标志。已有报道确定CMBs与脑出血、脑梗死、高血压病、淀粉样血管病(cerebral amyloid angiopat
在新课改背景下,提高初中化学教学的有效性对于促进学生学习非常重要。也只有有效的化学课堂才能提高学生的学习能力、实践能力,满足新课改的要求。本文就此展开了讨论,从三
以京沪高铁为研究对象,从经济、社会、环境等方面阐述高铁经济的辐射范围和效果。京沪高铁重塑了京沪交通经济带,提高了沿线地区经济活动效率,改善了沿线投资环境,促进了产业
研究通过梳理农村老人养老模式,分析我国农村老人养老模式的利弊,结合实际情况,从增强子女照顾义务、激活民间资本,加大社会参与力量方面分析,根据老人养老需求,有针对性地开
目的:研究MHC限制性与非MHC限制性杀伤在细胞因子诱导的杀伤细胞(CIK)体外杀伤胃癌(SGC-7901)细胞中所起的作用。方法:从正常人外周血单个核细胞诱导树突状细胞(DC)、CIK细胞
核心竞争力是企业保持持续竞争优势的基础,在分析有关枢纽机场竞争力研究成果的基础上,阐述了枢纽机场货运竞争力的概念,并构建了评价枢纽机场货运竞争力的指标体系。基于上
从已报道的文献来看,4-(N-芳基)胺基取代的喹唑啉类化合物在抑制EGFR-TK方面有优异表现,从而表现出较高的抗癌活性,其代表化合物为PD 153035。本论文以PD 153035为先导化合物,
目的:研究放射损伤识别与修复蛋白——DNA依赖性蛋白激酶催化亚基(DNA-depended protein kinase catalytic subunitit, DNA-PKcs)以及p53在宫颈癌组织中的表达与宫颈癌组织放
目的S100蛋白最先是Moore从牛脑中分离出的一组钙离子结合调节蛋白,因能溶于100%的硫酸铵溶液而被称为S100蛋白。S100A4蛋白是S100家族成员之一,主要来源于哺乳动物上皮细胞