论文部分内容阅读
自从20世纪90年代以来,美国率先启动的人类基因组计划(Human Genome Project,简称HGP)带来了前所未有的数据爆炸,然而数据并不等于信息和知识,仅是信息和知识的源泉,对科学家而言,最关键的问题在于如何从数据中找到揭示生命奥秘的钥匙。如此伟大的动力就诞生了一门新兴的交叉科学,这就是生物信息学。通过对生物学实验数据的获取、加工、存储、检索与分析,生物信息学成为解开生物数据所蕴含的生物学意义的强大工具。同时,随着人类基因组计划进一步的快速发展,生物信息学在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。尤其在疾病诊断领域,生物信息学方法结合90年代中期发展起来的一项前沿生物技术——生物基因芯片,通过对全基因表达图谱进行数据挖掘,成功地将临床表征不明或容易误诊的恶性肿瘤准确、快速地区分开,从而为癌症的早期诊断与及时治疗做出了重要的贡献。 本课题的重点就是利用基因芯片数据产生的基因表达图谱和生物信息学中的模式识别方法,对不同种类的癌症样本加以分类。针对基于芯片数据的复杂性和各种分类方法的特点,文中使用了两种不同的模式识别体系,其基本思想均为先降维再分类最后预报。第一种是分别使用t检验、方差分析进行变量选择或使用核函数进行数据重组完成降维,再与人工神经网络算法——自组织映射结合完成分类预报;第二种是核映射(Kernel Trick)方法与偏最小二乘联用构成的非线性偏最小二乘作为分类器。通过对急性白血病、肺癌、前列腺癌以及扩散大B细胞淋巴癌等四套基因芯片数据的实验,证明了本文提出的分类方法具有很高的正确率和较好的稳定性。此外,借助Leave One Out(LOO)和5-fold交叉验证以及方差分析等统计学分析方法,对不同降维方法的降维效果以及数据集特点进行了讨论。 本文最大创新之处为将核映射引入降维操作中,使通常处理多样本少变量的核函数巧妙地应用于少样本多变量的问题中。由于样本采集难度大,一般进行基因芯片实验的样本个数在200以内,大多100左右,而基因个数均在5000以上。这种变量数远大于样本数的体系,对降维有非常高的要求以及敏感性。