论文部分内容阅读
基因差异表达是构成生物多样性的主要原因,相同基因在不同组织中、不同环境或不同时间点,基因的表达随外界条件的变化而变化。因此,差异表达基因的识别是人们了解生物过程,构建调控网络的基础。差异表达的基因能够帮助人们缩小研究范围,提高构建网络的效率,为下一步生物分析提供准确的数据并且可以用于分析癌症和药物靶向的研究。基于时间的差异表达的基因因其是动态变化的过程,这些基因之间的动态变化规律对基因调控网络构建至关重要。因此,基于时序的差异表达基因的研究是一项能够促进生物信息学和系统生物学研究的一项重要工作。本文根据目前的差异表达基因的识别方法,分析各种方法存在的缺点和需要解决的问题。针对基于傅里叶变换研究方法存在的不能同时解决时频分析的问题,提出了基于小波分析的差异建模分析,根据不同尺度的波形来挖掘出基因之间的潜在关系。在模型中,本文提出一种自动快速聚类算法,通过将识别出的差异表达基因进行聚类分析,将不同功能的基因划分到不同的类中。最后通过将类中的基因进行GO术语分析,揭示每个类中差异表达基因的功能。本文提出基于小波分析的基因差异表达识别的模型,根据小波能很好的分析信号局部的功能,本文将小波分析融合入回归模型中。该模型通过将小波分析应用于时序数据,将基因数据进行多尺度分解进行去噪分析。而后采用复杂的小波树分解每个基因得到该基因对应的小波系数,用小波系数来代替每个基因,再利用小波系数计算不同基因之间的相似性。聚类分析是将差异表达的基因划分到不同的类中,然后根据类中已知基因的功能,推测其他未知基因的功能。本文基于快速聚类算法的思想,采用粒子群算法解决其手动选择类中心问题,提出一种基于粒子群算法自动快速聚类算法。该算法采用高斯核函数基因之间的距离,计算每个基因的密度,然后通过粒子群算法自动识别出该数据集的类中心。本文通过聚类算法中常用的5组数据集对本算法进行验证,通过和原算法在相同数据集上比较结果,说明了算法的可行性。另外,本文设计和开发了基于该算法的工具,用来分析聚类数据,并将结果可视化。