基于数据质控的全基因组G四联体结构分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:hydhyd112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
G四联体是一种由富含鸟嘌呤的核酸序列通过Hoogensten氢键折叠形成的二级结构。作为一种重要的基因表达调控元件,G四联体在人基因组大量分布。目前对于G四联体在体外的物化性质、空间结构等性质都有了较详细的研究。但对于全基因组范围内实际可形成的G四联体的分布和功能的研究仍存在一定困难。本课题针对GM12878细胞系全基因组中G四联体结构进行了研究,基于Perl程序语言撰写脚本,建立了一套生物信息学的分析流程,从常规二代测序数据中挖掘出具有形成G四联体潜力的序列(QGRS),并对其检出G四联体的性能进行了评估,最后对单碱基突变造成的G四联体形成影响进行了简单研究。我们利用了测序过程中模板链上G四联体的形成将对合成链序列质量造成影响的性质,对每个位点的序列质量值计算了中位数,并以此作为该位点质量值的分数。在流程的核心部分,即OQ(Observed QGRS)的检测中,我们设计了一种比较两位点质量值的逐点扫描筛选法,这是一种在小范围区域内基于当前质量值情况的比较法,可避免单一阈值不能应对大范围的无质量值起伏导致漏选或多选的问题。我们还建立了一套算法参数调整的方案,使其适用于各种样本的筛选。对于PQ的预测,我们使用了一种基于机器学习算法的QGRS预测软件g4predict对参考序列(hg19)进行了全基因组范围内的预测。共得到了356,298个PQ(Predicted QGRS),其中正义链为178,606个,反义链有177,692个。在全基因组范围内,我们利用序列的质量值变化筛选出低质量区域最终从两批GM12878测序数据中分别检测出1,054,941个和936,545个OQ,约为PQ数量的2.7~3倍,总长度为基因组非N区序列长度的3%左右。对OQ中包含的QGRS结构按照QGRS的种类分类的结果显示,我们共成功检测出经典型、长环型、突起型和2G型四种,并从没有QGRS的序列中检测出了其他二级结构(i-motif、发卡结构、三螺旋结构)的存在。总体而言,仍有约6.3%的OQ无法被分类。我们评估了OQ与PQ序列重合的比例,统计出可被OQ检测出的PQ的数量(PQinOQ),两批数据分别检测出了185,822个和172,946个PQ,占总PQ的52.2%和48.5%。较低的OQ长度和较高的PQ检出率显示了本流程筛选的OQ的高准确性。对PQ和PQinOQ的结构做分类统计证实了环长度较短的G四联体在Na~+环境下显示出了更强的稳定性。本课题得到的QGRS富集结果与2015年一项在添加了K~+和PDS的促G四联体形成的条件下完成的全基因组QGRS筛选阳性结果进行了比较,其中超过80%的PQinOQ在两种实验中是一致的。在基因组的不同功能区域中对OQ和PQinOQ的密度进行统计结果中,PQinOQ的分布与G四联体承担的一般功能相符合,在转录起始位点和启动子区域呈现出最大密度。OQ序列,尤其是包含了经典型G四联体的OQ,除了基因调控区域外,在编码区也有较多分布。对于部分基因,我们使用了IGV Tools对这些位点的中位质量值和OQ及PQ的分布进行了可视化分析。针对单碱基突变(SNP)我们研究了GM12878基因组的1号染色体数据。按照纯合和部分杂合SNP位点信息修正PQ预测信息,修正后的PQinOQ的结果较未修正增加了126个,体现出修正后的参考序列预测得到的结果更接近实际序列情况。我们对几处杂合SNP位点相关序列进行了抓取和观测,直观证实了不同基因型带来的质量值的变化则可验证单个碱基的突变确实可以影响G四联体的形成。
其他文献
近年来,海洋经济已然成为拉动国民经济的有利引擎。我国拥有1.8万公里海岸线,水上运输的快速发展以及水产品市场需求的急剧增长滋生了许多无船名船号、无船舶证书(无有效渔业船舶检验证书、船舶登记证书、捕捞许可证)、无船籍港的“三无渔船”。对渔业的健康发展和渔民的生命安全都造成了很大威胁,有效监管势在必行。而监管的首要任务,就是感知识别渔船的数量,以往都是依赖人工识别,成本高昂,只能定性分析是否有非法渔船
我国70%以上的煤炭被用于燃煤发电。燃煤电厂烟气中的氮氧化物(NO_X)和硫化物是形成酸雨和光化学烟雾的罪魁祸首,目前主要通过尿素(NH_3)作为选择性催化还原反应(SCR)中的还原剂,将烟气中NO_X还原成氮气。SCR过程中NH_3的浓度和温度不仅影响NO_X的脱除率,逃逸的NH_3还可能腐蚀管道和检测设备。近年来,激光光谱技术因具有非接触、指纹识别、实时在线、温度和浓度同时测量等优先,在燃煤烟
为了更好的探索与开发海洋,学者们研制了自主水下航行器(Autonomous Underwater Vehicle,AUV)。然而随着海洋探索的逐渐深入,人类意识到单个AUV由于通信,控制,能源方面的不足,往往很难实现和满足这些复杂的任务和要求,于是各国学者将目光转向多AUV水下协同作业的研究,多AUV系统的协同技术使得群体中的每个AUV相互协作,共同完成任务成为可能。本文研究了通信约束下的多AUV
建筑业是国民经济的支柱产业以及重要物质生产部门,建筑业的发展能为社会创造出巨大财富,提供大量就业岗位,而且建筑业的产值在国内生产总值中占有重要地位,对改善人民生活具有巨大推动作用。近年来,我国建筑业的发展日新月异,我国基础设施建设水平已处于世界领先位置,目前我国已成为世界上最大的建筑市场,大型建筑,特别是超高、超深和复杂建筑在我国建筑业中所占的比重越来越大。如何更加高效的进行项目管理成为摆在工程师
我国的农耕文化历史悠久,“三农”问题一直是党和国家关心工作的重中之重。要实现“两个一百年”奋斗目标,势必要优先解决农业不发达、农村不美丽、农民不富裕的难题。二十一世纪以来,我国先后出台了16个指导“三农”工作的中央一号文件,党的十九大报告提出“乡村振兴战略”,并作为党和国家未来发展的战略之一,可见对农村经济发展的重视程度。金融作为现代经济的核心,一直是支持“三农”发展的关键环节,2019年的中央一
催化剂的催化活性低、稳定性差阻碍了直接甲醇燃料电池的商业化。本文综述铂基和非铂基两种催化剂,铂基催化剂具有高效率,但成本较高,稳定性较低;而非铂基催化剂(如金属钯)成
随着智能交通的日益发展,城市道路中的车辆逐渐变多,伴随着许多交通事故的发生,为了更好的监控追踪车辆信息,进行车辆识别的工作十分有必要。针对车牌识别已经积累了许多研究工作,但车牌识别中存在套牌车、车牌污损等问题,而车辆颜色作为一种可靠显著的车辆特征,也能够为车辆识别、监控、跟踪等方面提供有用的信息,可以切实解决复杂场景中仅靠车牌识别获取车辆信息的不足。车辆颜色识别是一种根据输入的车辆图像或视频,来确
我国证券市场自1990年上海证券交易所及深圳证券交易所成立20多年来,如何完善证券市场的ST股票的合理退出机制,淘汰绩差股和违规股票,一直是中国证监会及证券交易所等管理机
随着工程建设中深埋长大隧道的不断涌现,加上西部地区的特殊地质环境,高应力高水压条件下隧道围岩体的稳定性问题已成为热点话题。水压力在岩石的破坏过程中,将刺激岩石内部
随着城镇化进程的加快,相应的配套设施也随之发展,燃气、通信、排水等运输管道的数量也与日俱增,传统的管道设计、铺设以及线路的搭接方式形成了“蜘蛛网”的情形,严重影响了城市美观,增加了安全隐患,而且在日常检测和维修过程中,需要“开膛破肚”,影响城市交通,浪费公共资源,于是地下综合管廊便应运而生,它的出现可以有效解决以上问题。但综合管廊不仅建设成本巨大,而且大多数入廊管线都具有公益性,同时综合管廊大多是