论文部分内容阅读
为了理解人类的遗传机制,以便用于人类疾病的治疗和预防,对于生物序列的研究成为了研究分析遗传的基础。最基本和最关键的研究就是对于人类遗传物质的序列研究。随着测序技术的发展,第二代测序技术和第三代测序技术先后引领了一段生物信息学的发展前沿。随着测序技术的进步,为了适应发展需求,大量的序列比对算法开始逐渐产生和发展。二代的DNA序列比对技术相比于传统的DNA序列比对技术来讲速度更快,节省更多空间。二代测序技术同样带动了RNA序列比对技术的发展,为了满足二代测序数据产生的RNA序列数据的比对需要,开发出了很多类型的二代RNA序列比对工具。对于RNA序列比对的研究,首先要研究RNA的生物学特性,在了解清楚RNA的生物学背景后,我们才能研究出适应发展需求的RNA序列比对工具。而三代测序技术的发展则带动了RNA测序技术的更进一步发展,但适用于三代RNA测序序列的算法工具目前几乎没有,目前的RNA序列比对软件在三代RNA序列的比对方面还急需加强。本文设计了一个针对三代RNA测序序列的比对分析算法,实现了对三代RNA测序数据的比对和外显子组分析,其主要工作是对三代RNA测序数据进行比对,根据其长读长的特点将其进行分割,对得到的短序列使用BWA方法进行比对,比对到参考基因组上得到比对结果。根据比对得到的结果对匹配上的位置区域做合并得到全基因组上的外显子岛区域信息,通过构造连通图,使用动态规划等计算最优路径等找出外显子岛的比对信息。之后则利用三代RNA长序列来进行序列的外显子组成分析,使用上一步得到的外显子岛序列,来对序列的外显子岛组成进行分解,根据各个长序列的组成分析。对于同一基因的不同剪接,体现为相似序列的外显子岛的组成不同,主要是依据序列的外显子岛是否有重复,得到可变剪接的对比结果。