基于HMM和ANN的基因识别方法

来源 :成都理工大学 | 被引量 : 4次 | 上传用户:z5748259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门新兴交叉学科,它利用现代计算技术对分子生物学实验所得数据进行维护与管理,并结合多学科的知识对这些数据进行分析处理,以对生命现象进行合理的解释与预测。隐马模型是生物信息学中常用的数学模型,它最早用于语音识别领域,在生物信息学中主要用于序列比对、序列和片段的数据挖掘和分类、结构分析和模式识别。人工神经网络(ANN)作为模拟人脑思维机制的工程模型,它与HMM恰好相反,其分类决策能力和对不确定信息的描述能力已得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常ANN分类器只能解决静态模式分类问题且并不涉及序列处理。 隐马尔可夫模型是一种基于时序累积概率的动态信息处理方法。在训练和识别中,一个HMM模型参数由同类模式的训练样本集得到,每一类模式对应一个HMM模型,当需要学习某一新模式时,只需修正与该模式相对应类别的HMM,无需改变其他类别的HMM,具有较好的学习和再学习能力。但HMM的缺点在于仅考虑了特征的类内变化,而忽略了特征的类间重叠性,仅根据各HMM累积概率的最大值做类别判定,从而导致难于识别一些易混淆的基因。把删与人工神经网络结合起来,构造了新的识别模型HMM/ANN,它不仅克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了神经网络在获取时序信息方面的不足。 本文首先简要介绍了隐马模型以及人工神经网络的数学原理,其次讨论了隐马尔可夫模型HMM和人工神经网络模型ANN在基因识别中的具体应用,介绍了它们各自的模型训练与识别算法,最后针对HMM具有很强的对时间归整能力和ANN具有很强的分类能力,利用它们各自的优点把HMM租ANN结合起来,并以Ecogene数据库里的832基因为例说明了它在基因识别中的应用,实验证明,混合后的模型HMM/ANN提高了基因识别的准确率,充分体现了混合模型的可行性和有效性。
其他文献
应用稳定相分析法研究在时间趋向于无穷大时波浪运动的渐近性态,并给出在不同色散条件下的波面升高表达式,在此基础上对水波色散关系进行高阶展开,从而得到较为精确的波面升
统计学的一个重要的应用就是对观测数据或称为样本点进行加工,找到一个合适的模型来拟合观测数据。对观测数据的加工可以有很多方法。其中,线性模型可能是人们研究最早的经典
学位
文献[1,2,3]对文献[4]中的闭包算子以不同形式进行了推广,文献[5]引入弱内部算子和弱拓扑空间的概念,并讨论了弱拓扑空间范畴及Locale范畴的关系.在此基础上,文献[6]定义了弱