论文部分内容阅读
近年来基因芯片技术被广泛应用于生命科学及相关的各个领域,它推动了生物学研究的发展。基因表达的模式可以提供有关细胞状态的重要信息,基因芯片技术可以用一个样本同时测量数千个基因的表达情况。
聚类分析技术在分析基因芯片表达数据中扮演了重要的角色。在基因表达数据聚类分析中,使用不同的参数,得到的类结构可能显著不同,k-means算法应用较为广泛。本文首先以k-means算法为基准,对常见的两种类型的基因芯片数据适用的预处理方式和相似度选取进行了研究和分析,结果显示:对于时间序列数据集,对数化转换后,相似度选择协方差所得结果最好;对于非时间序列数据集,对数转化最好,相似度选取欧氏距离、平方欧氏距离、马氏距离都比较好。
由于k-means算法对于初始值非常敏感且易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的算法,它具有隐含并行性和对全局信息的有效利用能力,将两者结合产生了基于遗传算法的k-means聚类算法-GKA算法,它既能够发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,更好地解决聚类问题。本文结合参数研究结果,并将自然进化中的优选思想进一步引入GKA算法,提出了新的基于遗传算法的k-means聚类算法-IKGA算法。将该算法应用于酵母基因表达数据集研究,结果显示IKGA算法极显著(P<0.01)的优于GKA算法和k-means算法。
最后将该IKGA算法应用于猪基因表达数据的聚类分析中,结果显示,该算法能很好地避免了初始值对聚类结果的影响,使TWCV值降低,得到了较好的聚类结果。