论文部分内容阅读
随着高通量测序技术的迅猛发展,基因组学测序数据正以史无前例的规模迅猛增长。面对大数据的出现,生物学者由于数据存储和处理能力的限制往往局限于初始的有限的分析,导致新颖的更深层有价值的信息的丢失。高通量测序数据的生物信息学分析越来越离不开计算机手段与数学模型的帮助。基因表达是一个复杂的生物学过程,生物体内基因的正常表达对其发育、分化及复杂疾病的发生发展具有重要意义。影响基因转录调控的因素包括遗传、表观遗传以及环境等因子的作用,转录调控机制的精确解析有助于理解人类个体间表型的差异甚至疾病发生的来源。本文针对高通量RNA测序数据,结合遗传变异和表观遗传变异信息借助计算机方法和数学模型从全基因组范围内挖掘影响编码基因、双向启动子和非编码基因的转录调控元件包括遗传调控位点以及单核苷酸多态-DNA甲基化的调控模式。首先,本文在全基因组范围内利用最大似然模型预测人类个体内以及个体间显示等位特异表达的基因,并对其等位特异表达的程度进行量化。等位特异表达基因的识别对于基因表达调控元件甚至疾病风险等位的研究是至关重要的。尽管RNA测序技术在等位的水平上提供了基因表达的数据,然而在个体间中筛选等位特异表达基因的统计模型仍然缺乏。本文考虑基因内多个单核苷酸多态位点等位表达异质性的特点,提出利用贝塔-二项分布构建最大似然模型识别等位特异表达基因。模拟数据从数据覆盖程度、等位特异表达程度、基因内显示等位特异表达的单核苷酸多态的比例以及随机噪音等5个角度显示预测模型具有高度的准确性和稳定性。将该方法应用到不同个体的人类数据中结果发现,全基因组范围中大约17%的基因在个体内显示等位特异表达。由于个体间的差异,更多比例的基因在个体间显示等位特异表达。第二,本文基于高通量RNA测序数据利用全基因组范围的关联分析对双向基因对的遗传调控位点进行挖掘,认为双向启动子存在两种转录调控机制的作用。人类基因组中存在大量的转录起始位点之间距离小于1000bp,而且转录方向相反的基因对,一般被称为双向基因对。双向基因对可能由于共享相同的启动子区域(双向启动子)而具有相似的表达模式。然而,双向基因对之间的表达相关性尽管高于随机基因对,但是低于共享相同遗传调控位点的基因对,因此认为双向基因对之间的表达相关性存在差异。本文利用人类群体的高通量RNA测序数据分析双向基因对之间表达相关性差异的原因,通过全基因组范围的关联分析结果发现位于双向启动子内的遗传变异不仅与双向基因对的表达相关,同时与双向基因对之间的表达相关性显著关联,提出了关于双向启动子的两种转录调控机制。第三,本文利用人类群体的高通量RNA测序数据对miRNA的初始转录本进行定量,利用全基因组范围的关联分析发现了影响miRNA转录的遗传调控位点并认为是miRNA特有的转录调控位点。由于miRNA与编码基因具有相似的结构,本文认为RNA测序数据不仅能够提供关于编码基因的信息,而且能够提供miRNA的表达信息有助于其转录调控机制的研究。通过高通量的RNA测序数据对miRNA初始转录本的表达值进行量化,随机序列、miRNA前体的表达水平以及基因组相关区域的分布验证了miRNA初始转录本表达值的可信性。本文利用全基因组范围的关联分析和多重检验校正发现了miRNA的遗传调控位点并对其调控机制进行探讨,结果显示尽管这些遗传位点位于miRNA及其宿主基因共享的转录调控区域,但是与宿主基因的表达没有显著关联。第四,本研究对单核苷酸多态、DNA甲基化与基因表达之间的调控关系进行了探讨,通过构建四种基因表达调控模型利用最大似然方法在人类全基因组范围内进行预测,最终发现人类基因组中存在多种复杂的单核苷酸多态-DNA甲基化调控模式。根据单核苷酸多态、DNA甲基化和基因表达之间不同的相关程度模拟数据的预测结果显示模型具有令人满意的预测准确性和相对的稳定性。欧洲和非洲两种人群中基因表达调控模式的预测结果显示了相似的分布:人类全基因组范围内接近一半的基因分别受到单核苷酸多态和DNA甲基化独立的调控影响,该模式被称为协同/拮抗调控;不足三分之一基因仅由单一的因素调。本文提出的协同/拮抗调控模式发现大量的新的与基因表达相关的遗传调控位点,而且与E-box增强子和RNA延伸相关的转录调控功能。