论文部分内容阅读
近年来,随着高通量生物测序技术的飞速发展,至今已有超过三百种植物和动物基因组完成了测序工作。尽管这些年来生物信息学的研究已经取得一些突破,但是人们还远远没有掌握这些已测序生物的生理功能。所以科研人员将关注点放在了识别这些基因组的功能序列元件上,因为一旦这些功能序列元件被掌握,生物的生长、进化、疾病等生理过程也就能够被更深入地了解。而被转录因子所识别的顺式调控结合位点(又叫做模体)正是在基因表达过程中起关键作用的元件。因此,转录因子结合位点模体发现问题成为生物信息学中的热点问题。 2001年短柄草第一次被提出建议作为模式生物来研究,2010年短柄草基因组测序完毕,实践证明,短柄草在基因规模和植物特性方面都适合作为新的模式生物来研究。 在以上研究背景下,本文提出了一种新的研究思路和方法,以短柄草全基因组范围内的核心启动子为主要研究对象,以水稻、高粱、玉米、狗尾草、拟南芥为参考基因组,进行了模体发现研究。在本文的研究方法中,对传统的BLAST计算同源基因方法改进为双向最佳命中算法;对传统的单一模体预测计算方法改进为多工具模体预测计算方法。数据分析证明本文使用的研究方法与实际情况相吻合,能够找到真实的模体。由于计算的数据规模巨大,本文对研究过程中用到的算法进行了并行化设计,取得了较高的计算效率。