论文部分内容阅读
由于在缺乏启发性的知识的情况下,遗传算法对于高维的数据的特征提取非常有效,所以遗传算法是基因数据研究中非常重要的算法。而支持向量机是在统计学习理论的基础上发展起来的新的模式识别方法,它不仅考虑了对推广性的要求,而且能够在现有的有限信息的条件下得到最优结果,在解决样本少、高维数、非线性等问题中有许多特有的优势。本实验正是基于这两种理论的优势而提出的。对基因微阵列数据的分析,通常包括以下的内容:对基因数据的预处理;对处理过的数据选取有用的信息或者特征基因;对基因数据进行分析并对结果进行评价。其中在对基因数据进行分析之前,基因数据的预处理非常重要,而数据分析的关键则是对特征基因的选择和提取,因而对数据分析的质量不仅取决于所用算法的有效性,而且也取决于处理过程中所产生的特征基因的数量和质量。同样,最后对基因数据的分析及结果评价也同样重要。本文中对于基因数据的分析,实验采用两种方法进行,并且为了验证方法的有效性,实验利用白血病数据集和结肠癌数据集进行验证。具体的实现方法如下:实验第一种方法是基于支持向量机分类的分析方法。为了获得较好的实验结果,按照如下步骤进行:首先对基因数据进行预处理,将白血病数据集分为训练集和测试集两部分,然后分别利用t-test检验方法和Wilconxon检验方法选取白血病训练数据集的特征基因,减少数据的维数和无关的数据信息。然后利用选取的特征基因训练支持向量机,并利用白血病的测试数据集合进行检验,通过利用样本划分法对学习的结果进行评估。为了进一步验证所提方法的有效性,实验又利用结肠癌数据集按照同样的步骤进行验证,实验结果进一步证明了所提方法的有效性。为了能够得到选取的优化特征基因,实验采用的第二种方法是基于遗传算法对特征基因进行优化的方法,在对数据进行标准化和降低维数后,利用遗传算法选取特征基因,最后利用判别分析方法对数据进行学习,通过在白血病数据集中的应用,对学习的结果进行分析和评估,判断所用方法具有良好的效果。