论文部分内容阅读
蛋白质谱数据技术的出现使一次获得大量生物信息成为现实,也为癌症早期的预测和诊断提供了高效、快速、简单的新方法。但是在蛋白质谱数据分析中,大量质谱特征被用来表现蛋白质谱数据和分子结构之间的关系,这就使得蛋白质谱数据是典型的高维数据。高维数据引起的问题,在蛋白质谱数据分析中都会遇到。目前对蛋白质谱数据的分析常用的步骤如下:对数据的预处理;对处理过的数据提取特征;对数据进行分析并对结果进行评价。其中对特征的提取非常重要,这一步构建的特征子空间的质量直接决定了数据分析的质量和效率,所以高维蛋白质谱数据的特征提取在癌症诊断中非常关键,减少特征是必不可少的步骤。目前,利用计算机分析蛋白质谱数据,缺乏相关的先验知识,没有统一的理论,而基于特征子空间的独立成分分析方法是一种对非高斯性数据效果良好的特征提取方法。该方法在没有先验知识的情况下对特征提取非常有效,能挖掘出许多未知的因素和规律。本文提出的对蛋白质谱数据分析的新方法正是基于独立成分分析在这方面的优势。本文在独立成分分析理论的基础上,提出了蛋白质谱数据分析的新方法。为了验证该方法的有效性,实验采用了快速独立成分分析算法和加入类信息的监督式独立成分分析算法,在卵巢癌蛋白质谱数据和前列腺癌蛋白质谱数据中进行验证。为了获得较好的实验结果,实验按照如下步骤进行:首先对数据进行预处理,将数据集分为训练集和测试集两部分,然后利用降维方法(T-test,PCA,二次PCA)减少数据的维数和无关的信息,再用独立成分分析提取独立成分,构建特征子空间,将测试数据投影,并训练分类器(SVM和LDA)进行分类,通过样本划分法对学习的结果进行评估。为了进一步优化独立成分分析的效果,实验针对独立成分分析本身具有的两个缺点—不能自动生成独立成分个数和处理小样本,进行了实验。针对缺点一,实验在两个数据集上选取了若干独立成分个数进行实验,并总结其规律。针对缺点二,实验采用三种降维方法配合独立成分分析解决小样本问题,并对实验结果进行比较。为了避免实验结果受分类器影响,本文采用了两种分类器(SVM和LDA),以验证独立成分分析方法的可靠性和高效性。通过检验表明,独立成分分析(快速独立成分分析算法和监督式独立成分分析算法)在参数合适的情况下对蛋白质谱数据分析效果良好,也证明了以本文提出的步骤为基础建立的模型可以有效地对癌症进行预测诊断。