原核基因组基因序列相似性分析及其对基因预测结果的影响

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhl1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,发现基因组中普遍存在重复基因现象。基因重复在导致基因数量增大的同时,也为基因突变和正向选择提供原材料,进而为生物体进化提供可能。所以,了解重复基因的生物学意义和进化机制显得尤为重要。目前,对真核基因组中的重复基因研究较多,而对原核基因组中的重复基因、尤其是对多拷贝基因研究鲜有报道。因此,本课题首先对原核生物基因组中重复基因进行了深入统计分析。在此基础上,首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,为今后原核生物进化研究及基因组分析提供可靠的数据和理论基础。另外,基因注释是基因组研究的重要课题,在许多基因注释算法中都采用了蛋白质编码基因序列作为训练集。而许多算法中没有考虑由于重复基因和多拷贝基因的存在导致蛋白质编码基因序列相似性冗余问题。数据集冗余是机器学习中影响预测效率的关键因素之一,序列相似性去冗余已被广泛应用于蛋白质序列相关预测问题中。因此,在对原核生物基因组中重复基因和多拷贝基因研究基础上,本文以两种具有广泛应用的基因重注释算法为例,进一步分析了相似性蛋白质编码基因序列对基因重注释结果的影响,为今后原核生物基因组蛋白质编码基因注释提供可靠的理论基础。论文主要工作包括:  1.首先构建了由RefSeq数据库中下载的98个具有不同G+C含量原核生物基因组组成的数据集,运用CD-HIT软件对各基因组中重复程度≥80%的基因序列进行了相似性分析和去冗余,然后对各基因组中序列相似性等于100%的多拷贝基因进行了统计分析,结果表明在原核生物基因组中重复基因和多拷贝基因普遍存在,重复基因所占比例0~16.49%,多拷贝基因在各基因组中所占比例0~15.93%。对功能已知的多拷贝基因的COG分析表明,近87%的多拷贝基因的COG分类属于“L”,具体的功能分析发现有71.4%的多拷贝基因与编码转座酶相关,说明原核生物中的多拷贝基因的生物功能与环境适应相关。  2.为了研究相似性基因序列对基因注释结果的影响,以Z-curve算法和RPGM算法为例对相似性序列去冗余前、后的预测准确性、过注释基因预测个数和预测结果可靠性进行了深入对比分析。结果表明,去冗余前、后预测准确性和预测个数及其可靠性具有差别。为了研究序列去冗余程度与基因注释结果之间的关系,对两种算法中各基因组中蛋白质编码序列冗余程度与去冗余前后预测效率评价参数的变化程度进行了相关性分析,结果发现两者之间呈现不同程度负相关。因此,本文的分析结果表明蛋白质编码基因序列冗余对基因注释问题的影响是不可忽视的。
其他文献
2004年7月份,于江苏省高公岛一紫菜育苗场采集患病的丝状体贝壳。从微生物学角度,对患病紫菜贝壳丝状体的病症和病原菌进行了初步的研究。 采用梯度稀释法,分别涂海水Zobell
乌蕨(Stenoloma chusanum Ching)为鳞始蕨科(Lindsaeaceae)乌蕨属植物,是一种民间中草药,在传统中医中用于治疗癌症、食物中毒和外伤出血等。现代研究表明乌蕨含有黄酮、酚类、挥发油、甾体和多糖等成分,具有较强的抗菌、抗氧化、抗炎、保肝、止血、解毒等作用。但迄今为止,人们对乌蕨的药理活性研究多停留在粗提物的水平上,而对其有效成分的药理活性研究较少。因此,本论文对乌蕨开展
学位
摘要:儿童品德的形成源于他们对生活的体验、认识和感悟,只有源于儿童实际生活的教育活动才能引发他们内心的而非表面的道德情感、真实的而非虚假的道德体验和道德认知。一定要从真实的生活源头出发,引导学生用自己的感官去认识、用自己喜欢的方式去体验;一定要以活动为纽带,引导他们用自己的思维去碰撞、用自己的心灵去感悟。本文从实际出发,探讨如何提高小学品德与社会教学质量,让学生从心灵上得到升华。  关键词:小学;
脉冲无线电超宽带(IR-UWB)是一种使用脉冲方式的无载波通信技术,由于其具有时间分辨力高、抗干扰性能好、传输速率高、功耗低等优点,是未来通信与定位应用的首选技术之一。目
本文通过对荣华二采区10
期刊
表面展示技术为生物大分子的设计以及分析它们之间的相互作用提供了有力的工具。近十几年来,噬菌体表面展示已被应用分子生物学的各个领域并极大的促进了生物学的研究进展。
学位