论文部分内容阅读
启动子是基因表达调控中非常重要的一类顺式作用元件,它决定着基因转录的起始位置和转录频率,因此启动子的研究对于阐释基因表达调控网络的机制和基因组的功能都具有非常重要的意义。启动子的识别作为启动子研究的首要环节,正日益成为生物学研究的一个热点。传统启动子识别是通过免疫沉淀、突变分析等生物学实验来进行的,这些方法成本高,效率低,极大地限制了启动子研究的进展,因此利用计算机领域新兴的数据挖掘技术并开发相应的软件来进行启动子预测已经成为生物信息学的一个重要方向。本文通过对启动子的序列特征进行深入分析,利用隐马尔科夫模型(简称为HMM)进行数学建模,设计并编码实现了一个基于HMM的启动子预测软件系统。
本研究获得了以下结果:
1、设计并实现了一个基于HMM的启动子预测系统,包括序列输入、预处理、模型训练、未知序列识别和结果输出等部分。本系统能深入挖掘出启动子序列的内部统计学规律,建立相应的HMM,用于进行启动子预测。
2、用人类启动子序列和拟南芥启动子序列对系统进行了验证,验证结果显示本系统预测的准确率较高,通用性较广。对人类启动子预测的准确率达到84.5%,拟南芥启动子的准确率达到83.5%。
本系统为启动子的预测提供了一个平台,极大的提高了启动子的预测效率,节约大量的人力物力,为启动子的研究提供有力的支持。此外,本系统的设计与实现方案也可以推广为一种通用的序列元件预测系统的解决方案,加速各类元件的预测和分析,最终将加快整个基因表达调控网络的构建。