基于高通量测序数据的遗传调控元件识别及算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:setsail2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的迅猛发展,基因组学测序数据正以史无前例的规模迅猛增长。面对大数据的出现,生物学者由于数据存储和处理能力的限制往往局限于初始的有限的分析,导致新颖的更深层有价值的信息的丢失。高通量测序数据的生物信息学分析越来越离不开计算机手段与数学模型的帮助。基因表达是一个复杂的生物学过程,生物体内基因的正常表达对其发育、分化及复杂疾病的发生发展具有重要意义。影响基因转录调控的因素包括遗传、表观遗传以及环境等因子的作用,转录调控机制的精确解析有助于理解人类个体间表型的差异甚至疾病发生的来源。本文针对高通量RNA测序数据,结合遗传变异和表观遗传变异信息借助计算机方法和数学模型从全基因组范围内挖掘影响编码基因、双向启动子和非编码基因的转录调控元件包括遗传调控位点以及单核苷酸多态-DNA甲基化的调控模式。首先,本文在全基因组范围内利用最大似然模型预测人类个体内以及个体间显示等位特异表达的基因,并对其等位特异表达的程度进行量化。等位特异表达基因的识别对于基因表达调控元件甚至疾病风险等位的研究是至关重要的。尽管RNA测序技术在等位的水平上提供了基因表达的数据,然而在个体间中筛选等位特异表达基因的统计模型仍然缺乏。本文考虑基因内多个单核苷酸多态位点等位表达异质性的特点,提出利用贝塔-二项分布构建最大似然模型识别等位特异表达基因。模拟数据从数据覆盖程度、等位特异表达程度、基因内显示等位特异表达的单核苷酸多态的比例以及随机噪音等5个角度显示预测模型具有高度的准确性和稳定性。将该方法应用到不同个体的人类数据中结果发现,全基因组范围中大约17%的基因在个体内显示等位特异表达。由于个体间的差异,更多比例的基因在个体间显示等位特异表达。第二,本文基于高通量RNA测序数据利用全基因组范围的关联分析对双向基因对的遗传调控位点进行挖掘,认为双向启动子存在两种转录调控机制的作用。人类基因组中存在大量的转录起始位点之间距离小于1000bp,而且转录方向相反的基因对,一般被称为双向基因对。双向基因对可能由于共享相同的启动子区域(双向启动子)而具有相似的表达模式。然而,双向基因对之间的表达相关性尽管高于随机基因对,但是低于共享相同遗传调控位点的基因对,因此认为双向基因对之间的表达相关性存在差异。本文利用人类群体的高通量RNA测序数据分析双向基因对之间表达相关性差异的原因,通过全基因组范围的关联分析结果发现位于双向启动子内的遗传变异不仅与双向基因对的表达相关,同时与双向基因对之间的表达相关性显著关联,提出了关于双向启动子的两种转录调控机制。第三,本文利用人类群体的高通量RNA测序数据对miRNA的初始转录本进行定量,利用全基因组范围的关联分析发现了影响miRNA转录的遗传调控位点并认为是miRNA特有的转录调控位点。由于miRNA与编码基因具有相似的结构,本文认为RNA测序数据不仅能够提供关于编码基因的信息,而且能够提供miRNA的表达信息有助于其转录调控机制的研究。通过高通量的RNA测序数据对miRNA初始转录本的表达值进行量化,随机序列、miRNA前体的表达水平以及基因组相关区域的分布验证了miRNA初始转录本表达值的可信性。本文利用全基因组范围的关联分析和多重检验校正发现了miRNA的遗传调控位点并对其调控机制进行探讨,结果显示尽管这些遗传位点位于miRNA及其宿主基因共享的转录调控区域,但是与宿主基因的表达没有显著关联。第四,本研究对单核苷酸多态、DNA甲基化与基因表达之间的调控关系进行了探讨,通过构建四种基因表达调控模型利用最大似然方法在人类全基因组范围内进行预测,最终发现人类基因组中存在多种复杂的单核苷酸多态-DNA甲基化调控模式。根据单核苷酸多态、DNA甲基化和基因表达之间不同的相关程度模拟数据的预测结果显示模型具有令人满意的预测准确性和相对的稳定性。欧洲和非洲两种人群中基因表达调控模式的预测结果显示了相似的分布:人类全基因组范围内接近一半的基因分别受到单核苷酸多态和DNA甲基化独立的调控影响,该模式被称为协同/拮抗调控;不足三分之一基因仅由单一的因素调。本文提出的协同/拮抗调控模式发现大量的新的与基因表达相关的遗传调控位点,而且与E-box增强子和RNA延伸相关的转录调控功能。
其他文献
<正>第一章4月的一个傍晚,在美国马萨诸塞州南部科德角以东三十海里处,两名年轻人带着行李,站在一艘改装过的游艇的直升机起降平台上。他们紧握着栏杆,神情焦虑。他们俩都知
目的检测单纯性肥胖儿童空腹血糖(FBG)、总胆固醇(TC)、三酰甘油(TG)及儿童空腹血清Ghrelin、nesfatin-1的水平与心外膜脂肪厚度(EAT)、体质指数(BMI)、腰臀比(WHR)、内脏脂
目的:探讨慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)患者吸入支气管舒张剂后1s用力呼气容积(forced expiratory volume in one second, FEV1)、用力肺活
<正>一、问题的提出在教学"一次函数的图象是一条直线"时,有些老师先让学生画一次函数的图象,然后再让学生观察所画图象直观得到"一次函数的图象是一条直线".对于这样的教学,
在瑞典的哥德堡市中心的一个小广场上,矗立着一座青铜塑像,这是哥德堡的一处名胜,俗称吃土豆者的塑像。
科索沃危机不仅给南联盟带来了灾难性后果,而且也给冷战后逐步趋向良性互动的大国关系投下了阴影。其突出的表现是:俄美矛盾凸显、中美关系受挫、中俄关系拉近。这种大国关系
中国“一带一路”宏伟战略蓝图承载着“中国梦”的实现,该战略提出以后在国际社会上引起了广泛关注,尤其在《丝绸之路经济带与21世纪“海上丝绸之路”愿景与行动》发布后,“
中药复方成分复杂,作用广泛,研究中药复方在体内的药代动力学特征有助于指导临床用药,制定合理的给药方案等。黄连解毒汤在传统中医药两千年的临床上应用非常丰富,涉及多种疾
期刊
轮轨间的粘着是轨道交通车辆牵引力和制动力的根本,而交流传动电力牵引系统中,牵引电机控制策略是影响轮轨间粘着的重要因素之一。本文以某型电力机车机械传动、驱动系统为研