论文部分内容阅读
生物信息学(Bioinformatics)是伴随着人类基因组计划而产生的一门新的学科,这一学科是集计算机科学、生物学、应用数学、物理等学科为一体的综合学科。基因表达数据提供了大量的基因信息,解密了生命的本质、基因的功能、特性、生命现象的机理以及遗传基因的调控与相互关系,促进了医学的快速发展。鉴于基因表达数据的高维小样本、高噪声的特性,成千上万的基因表达数据该如何处理成为人们研究的焦点,基因芯片技术和微阵列数据分析方法正是随着这一趋势发展起来的一项对于生物信息学很关键的技术。通过合理的数据分析技术对海量的微阵列数据进行分析研究,找出基因之间的表达调控机制,揭示生命现象的本质。聚类分析是数据挖掘的一个重要分支领域,从统计学的角度来说,它是一种多元统计分析法,是对基因表达数据进行分组处理的有效手段。聚类分析是在不给出任何分类标准的情况下,根据待研究对象的特性进行自动分类,这种特性主要是指样本自身的相似性和差异性,使最终的结果满足相似的个体尽可能分到同一类中,不相似的样本尽可能分到不同的类中,达到类内距离最小,类间距离最大的情形。目前,聚类分析在不同应用领域都有广泛的应用,而且在基因表达数据的分析中也成为主流分析法。本文是围绕基因表达数据的聚类问题展开讨论的,主要工作安排如下:(1)对生物信息学、微阵列数据的背景基础知识进行介绍以及介绍了常见聚类分析算法的原理及其应用;(2)详细介绍了传统粒子群算法的基本原理,分析了近几年改进粒子群算法的不足之处,在基于前人研究的基础上,在传统粒子群算法中引入非时变权重因子,即权重因子和压缩因子的结合,提高算法的优化性能和收敛速度。(3)根据基因表达数据和聚类算法的特点,将改进的粒子群算法应用到粒子对算法中,最终利用改进的粒子对算法进行K-means聚类。本文以白血病数据集、蝴蝶迁移性数据集和结肠癌数据集为研究对象,利用改进的粒子对K-means聚类算法对数据进行聚类处理,由实验结果可知,得到了良好的聚类效果,与K-means聚类算法相比,准确率也有所提高。(4)阐述了遗传算法的基本原理,包括各个遗传因子的选择方法的介绍,在总结算法优缺点的基础上进行改进,形成混合聚类算法,以经典实验数据集作为研究对象,用经过特征选择的数据和原始数据分别的聚类效果进行比较验证改进算法的可行性。