论文部分内容阅读
DNA序列模体对研究基因的表达调控有重要作用,模体识别问题是计算生物学中一个热点问题。本文就模体识别问题做了相关的介绍并提出了一个新的计算方法,主要内容安排如下:第一章是绪论,简略介绍DNA模体识别问题的生物背景及意义,以及该问题目前的研究情况。第二章介绍DNA模体识别问题的相关生物知识,包括基因表达过程中的转录和翻译,以及基因表达调控中涉及的转录因子及其结合位点。第三章给出DNA模体识别问题的详细描述,并介绍模体表示方法,包括一致序列表示、矩阵表示、logo图表示;还介绍模体的评价方式,包括信息量评价、一致性得分、适应度得分。第四章介绍计算DNA模体识别问题的算法,分别介绍了遗传算法、蚁群算法、Gibbs采样算法及其扩展算法在模体识别问题中的应用。第五章是本文的精髓,提出一个新的模体识别的迭代算法,采用遗传算法框架,从模体长度较短时开始迭代,利用遗传变异操作以及本文提出的加一操作,使模体长度逐渐加一,最终计算出标准模体长度下的模体模式。本文对模拟数据和真实的生物数据都做了实验,结果显示预测的结果与真实情况相符。对于同一数据CRP,本文方法比Gibbs Sampler、GA、GARPS这三种方法的得分高。