论文部分内容阅读
胃癌是世界上危及人类身体健康的主要癌症之一。胃癌的早期发现,对胃癌的诊断和治疗有重要的意义。基因芯片技术的发展,促进了胃癌分子水平上的研究技术。从海量的胃癌基因表达数据中,挖掘出有用的信息和知识,可以更加全面的认识胃癌的基因本质,更加全面的了解“胃癌-基因”之间的关系,对推进胃癌的临床诊断和治疗,进一步研究胃癌、发现胃癌的致病机理有至关重要的作用。论文实验数据采用北京肿瘤医院提供的胃癌基因表达数据。该数据采集的样本全部来自中国,是中国人自己的数据。论文基于胃癌基因表达数据,主要围绕三个方面进行了研究:胃癌样本与正常样本的分类、胃癌亚型分类、胃癌的特异表达基因的选取。重点工作是在胃癌Lauren分型中的特征基因选取工作。实验最后得到一些比较有意义的基因。例如:CHRNA4、MEA1等。这些基因在临床上已有人证明与胃癌的发生发展和分型有密切关系。在分析方法上,本文取得的主要研究成果如下:1.提出有效的特征基因选取方法,基于巴氏距离的混合方法。混合方法结合了特征选取方法中过滤法和融合法的优点,能够快速有效地选取特征基因,从而大大降低基因表达数据的维数,提高胃癌样本的分类准确率。混合方法先对原始数据进行基于巴氏距离的基因排序。巴氏距离既考虑到基因在样本中的均值,也考虑到基因在样本中的方差分布,是比较好的信息度量指标。然后,采用顺序前向搜索方法去除基因冗余。实验最后得到7个肠型胃癌样本与弥漫型胃癌的分类特征基因,9个胃癌样本与正常样本的特征基因。2.提出一种PLS系数选择特征基因的方法。偏最小二乘(PLS)和主成分分析方法(PCA)能够有效的降低基因表达数据的维数。但是,在特征向量解释方面存在着不足。论文在基于偏最小二乘原理的基础上提出一种PLS系数的特征基因选择方法。该方法能有效的选择特征基因,并能对特征向量作出很好的解释。实验最后得到20个肠型胃癌样本与弥漫型样本的特征基因。3.将TSP(Top Coring Pairs)特征选取方法成功应用到胃癌基因表达数据处理过程中。TSP方法由2004年Donald Geman提出。据文献检索,尚未有人将其应用到胃癌基因表达数据的分类中。该方法原理简单,能够快速有效的从21378个基因中,选取出11对肠型胃癌与弥漫型胃癌的特征基因。论文最后还对TSP方法、基于巴氏距离的混合方法、PLS系数方法三种特征选取方法进行了比较性研究。