基于机器学习的生物基因剪切位点识别

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:ppl_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是分子生物学和计算机科学的交叉科学。生物信息学的工作是对不同领域的生物信息进行分析,包括核苷酸和氨基酸序列、蛋白质及其结构的分析、基因数据表达等。由于生物信息数据所具有的高维量大的特性,对用于生物信息的存储、检索、处理、分析及可视化等方面的理论、算法、软件等都将提出了严格的要求。计算机算法已经是生物信息学研究中必不可少的组成。由于生物进化方式的复杂和在分子水平上对生物组织理论的缺乏,因此生物学系统具有内在的复杂性(inherent complexity)。机器学习非常适合用于分析高维、多噪声、缺少相关理论的生物信息学数据,如神经网络,隐马尔可夫模型、支持向量机、信度网等。本文主要研究机器学习算法及其在生物信息学中的应用。根据生物信息学数据的特性,改进相关的学习算法,以提高其学习的准确率和效率。主要分为以下四个部分:(1)自组织神经网络的改进自组织神经网络能够将高维输入信号转变为低维的(通常是一到二维)的离散信号,并且保持其拓扑结构不变,自组织神经网络在模式识别、数据分析等领域都得到了广泛的应用。在Kohonen学习率中,自组织神经网络学习过程中的权重调整主要由学习率函数和邻域宽度函数决定的,这两个函数的选择没有数学上的方法,通常是根据经验选择。本文提出将无先导卡尔曼滤波器和卡尔曼滤波器分别应用于学习率函数和邻域宽度函数的自适应过程。(2)核方法的应用与改进核方法主要思想是将非线性数据映射到特征空间中,在特征空间中使用线性的学习和分类算法。核方法是机器学习中的基础,并且功的应用于多个领域,如数据的聚类、分类和降维等。实际应用中,核函数及其参数的选择非常关键。本文根据基因系列表达分析数据的统计特性,提出了基于Poisson分布的核函数(poisson-model based kernel, PMK)。(3)剪切位点的识别在真核细胞中,多数基因都是被长度不等的内含子所隔离,形成镶嵌形式的断裂方式。在转录的时候,RNA聚合酶将这些内含子剔除,把外显子链接起来,产生成熟的mRNA。显然,对于这些剪切位点的精确识别,对于基因组的分析有重要意义。本文将改进的自组织神经网络应用于人类剪切位点的识别中。(4)基因系列表达分析数据的分析核方法中包括了支持向量机和核主分量分析算法。支持向量机建立在统计学习理论中的结构风险最小化的基础上,可用于对数据的分类。核主分量分析算法是主分量分析算法在核方法中的推广,可有效的处理非线性数据,捕捉其特征。本文分别将基于Poisson分布核函数的支持向量机和核主分量分析算法应用基因系列表达分析数据的处理。
其他文献
本文主要针对多类不确定系统,包括不确定热方程、带有不确定扩散主导的执行器动态的ODE系统、不确定耦合PDE-ODE系统,研究其自适应镇定问题.此外,还研究了一类带有空间变系数
近年来,复杂优化问题寻求高效的解决方法已成为优化领域的一个极具挑战性的研究课题。除了传统优化方法,计算智能方法正在得到越来越多的研究人员的关注和重视。以遗传算法,
康德的自由理论是整个批判哲学的中心,是贯穿三大批判即纯粹理性批判、实践理性批判和判断力批判的要旨。在康德的“三大批判”中,先验自由的可能性在其第一批判中得到了诠释,第
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
学校交通的安全问题是一个非常复杂的问题因为校车事故中存在很多因素:例如汽车设计方面,人为因素或者外界因素,通常一个事故由几个原因引起。通过研究中国和三个发达国家的事故