基于特征子空间的质谱数据分析

来源 :山东轻工业学院 齐鲁工业大学 | 被引量 : 0次 | 上传用户:a1028399914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质谱数据技术的出现使一次获得大量生物信息成为现实,也为癌症早期的预测和诊断提供了高效、快速、简单的新方法。但是在蛋白质谱数据分析中,大量质谱特征被用来表现蛋白质谱数据和分子结构之间的关系,这就使得蛋白质谱数据是典型的高维数据。高维数据引起的问题,在蛋白质谱数据分析中都会遇到。目前对蛋白质谱数据的分析常用的步骤如下:对数据的预处理;对处理过的数据提取特征;对数据进行分析并对结果进行评价。其中对特征的提取非常重要,这一步构建的特征子空间的质量直接决定了数据分析的质量和效率,所以高维蛋白质谱数据的特征提取在癌症诊断中非常关键,减少特征是必不可少的步骤。目前,利用计算机分析蛋白质谱数据,缺乏相关的先验知识,没有统一的理论,而基于特征子空间的独立成分分析方法是一种对非高斯性数据效果良好的特征提取方法。该方法在没有先验知识的情况下对特征提取非常有效,能挖掘出许多未知的因素和规律。本文提出的对蛋白质谱数据分析的新方法正是基于独立成分分析在这方面的优势。本文在独立成分分析理论的基础上,提出了蛋白质谱数据分析的新方法。为了验证该方法的有效性,实验采用了快速独立成分分析算法和加入类信息的监督式独立成分分析算法,在卵巢癌蛋白质谱数据和前列腺癌蛋白质谱数据中进行验证。为了获得较好的实验结果,实验按照如下步骤进行:首先对数据进行预处理,将数据集分为训练集和测试集两部分,然后利用降维方法(T-test,PCA,二次PCA)减少数据的维数和无关的信息,再用独立成分分析提取独立成分,构建特征子空间,将测试数据投影,并训练分类器(SVM和LDA)进行分类,通过样本划分法对学习的结果进行评估。为了进一步优化独立成分分析的效果,实验针对独立成分分析本身具有的两个缺点—不能自动生成独立成分个数和处理小样本,进行了实验。针对缺点一,实验在两个数据集上选取了若干独立成分个数进行实验,并总结其规律。针对缺点二,实验采用三种降维方法配合独立成分分析解决小样本问题,并对实验结果进行比较。为了避免实验结果受分类器影响,本文采用了两种分类器(SVM和LDA),以验证独立成分分析方法的可靠性和高效性。通过检验表明,独立成分分析(快速独立成分分析算法和监督式独立成分分析算法)在参数合适的情况下对蛋白质谱数据分析效果良好,也证明了以本文提出的步骤为基础建立的模型可以有效地对癌症进行预测诊断。
其他文献
计算机辅助优化排样问题就是在给定的材料上最优的排放一系列形状各异的零件,找出零件的最优布局,使得原材料利用率最高。在实际生产中,优化排样问题广泛存在于机械制造业、
近年来,随着基于多协议标记交换的语音(VoMPLS)技术的不断发展,基于多协议标记交换的语音(VoMPLS)网络在全球范围内的部署实施工作得到了飞速地发展。因为语音在传送与接收时要求具
数字图像在其采集及传输过程中,难免会受到不同类型的噪声干扰。噪声的引入会降低图像的主观视觉质量,并且会对其需要进行后续处理及识别的图像造成严重影响。数字图像修复在
随着因特网技术、分组交换技术和音视频压缩技术的发展,两大网络即语音网络和数据网络出现了融合的趋势,便产生了VoIP网络电话。现在,VoIP已经占有相当比重的市场份额,成为当今电
随着21世纪的到来,计算机技术的发展更加迅猛,计算机的相关技术在各行各业的应用也更加广泛。在数字图像处理方面,人们越来越多地利用计算机来帮助人类获取与处理视觉图像信
多串口数据通讯是计算机应用方向的一个重要分支,主要研究的是数据的多串口采集,存储和处理。基于PCI总线技术的多串口数据通讯卡,一直是市场追求的热点。在总线技术中,PCI局
随着计算科学和信息技术的发展,语音识别日渐成为人与机器交互的主要工具。经过几十年的研究和发展,语音识别技术已日渐成熟并逐渐走向实用,正在渐渐地改变着人们的生活方式
传感器、嵌入式计算、网络和无线通信四大技术孕育了无线传感器网络。它是一种新型的无基础设施的无线网络,能够协作地实时监测、感知采集各种环境或监测对象的信息,并对其进行
脑机接口(Brain Computer Interface,以下简称BCI)研究的是在大脑与外部设备之间建立新的通信通道,进行信息传递。这项技术在上世纪九十年代起步,2000年后逐渐成为研究热点。
随着计算机网络的快速发展,计算机系统受到网络入侵的风险日益加大,网络安全已成为不容忽视的问题,入侵检测逐渐成为近年来的研究热点。作为入侵检测主要方法之一的异常检测,