论文部分内容阅读
生物信息学是分子生物学和计算机科学的交叉科学。生物信息学的工作是对不同领域的生物信息进行分析,包括核苷酸和氨基酸序列、蛋白质及其结构的分析、基因数据表达等。由于生物信息数据所具有的高维量大的特性,对用于生物信息的存储、检索、处理、分析及可视化等方面的理论、算法、软件等都将提出了严格的要求。计算机算法已经是生物信息学研究中必不可少的组成。由于生物进化方式的复杂和在分子水平上对生物组织理论的缺乏,因此生物学系统具有内在的复杂性(inherent complexity)。机器学习非常适合用于分析高维、多噪声、缺少相关理论的生物信息学数据,如神经网络,隐马尔可夫模型、支持向量机、信度网等。本文主要研究机器学习算法及其在生物信息学中的应用。根据生物信息学数据的特性,改进相关的学习算法,以提高其学习的准确率和效率。主要分为以下四个部分:(1)自组织神经网络的改进自组织神经网络能够将高维输入信号转变为低维的(通常是一到二维)的离散信号,并且保持其拓扑结构不变,自组织神经网络在模式识别、数据分析等领域都得到了广泛的应用。在Kohonen学习率中,自组织神经网络学习过程中的权重调整主要由学习率函数和邻域宽度函数决定的,这两个函数的选择没有数学上的方法,通常是根据经验选择。本文提出将无先导卡尔曼滤波器和卡尔曼滤波器分别应用于学习率函数和邻域宽度函数的自适应过程。(2)核方法的应用与改进核方法主要思想是将非线性数据映射到特征空间中,在特征空间中使用线性的学习和分类算法。核方法是机器学习中的基础,并且功的应用于多个领域,如数据的聚类、分类和降维等。实际应用中,核函数及其参数的选择非常关键。本文根据基因系列表达分析数据的统计特性,提出了基于Poisson分布的核函数(poisson-model based kernel, PMK)。(3)剪切位点的识别在真核细胞中,多数基因都是被长度不等的内含子所隔离,形成镶嵌形式的断裂方式。在转录的时候,RNA聚合酶将这些内含子剔除,把外显子链接起来,产生成熟的mRNA。显然,对于这些剪切位点的精确识别,对于基因组的分析有重要意义。本文将改进的自组织神经网络应用于人类剪切位点的识别中。(4)基因系列表达分析数据的分析核方法中包括了支持向量机和核主分量分析算法。支持向量机建立在统计学习理论中的结构风险最小化的基础上,可用于对数据的分类。核主分量分析算法是主分量分析算法在核方法中的推广,可有效的处理非线性数据,捕捉其特征。本文分别将基于Poisson分布核函数的支持向量机和核主分量分析算法应用基因系列表达分析数据的处理。