论文部分内容阅读
GEO数据库是美国生物技术信息中心(NCBI)的基因表达的综合库,是全球最大的基因芯片数据库之一。GEO数据库存储高通量的功能基因组数据主要以基因芯片表达数据为主,数据量呈指数增长。对于GEO数据库的挖掘方法主要包括差异表达基因的筛选,探究分子信号和关联性以及基因调控网络分析。本研究主要集中在2型糖尿病、肥胖和癌症的相关数据挖掘。2型糖尿病主要表现为胰岛素缺陷和β细胞受损,肥胖症主要由于饮食和活动失衡引起。DNA水平的全基因组关联分析已鉴定出2型糖尿病易感SNP位点54个,肥胖症的易感位点已鉴别出100多个。表达数量性状分析也成为研究2型糖尿病和肥胖的热点。其中,基因芯片表达谱数据逐渐应用于2型糖尿病和肥胖的研究,且从单组织跨越到多组织表达同时进行研究。本研究综合了多组织2型糖尿病和肥胖的基因表达谱数据,多组织统计分析,筛选疾病相关的候选基因。同时结合疾病易感位点,在疾病易感位点附近筛选候选基因。最终筛选出23个候选基因,其中全基因组筛选14个,易感位点附近筛选出9个。这其中,基因NCKAP5L和SP1在多组织中具有显著差异表达,且位于易感SNP附近,可能是2型糖尿病和肥胖新的候选基因。其他筛选出的候选基因很多都已报道与2型糖尿病或肥胖有关联,本研究的新基因有待进一步实验验证。癌症的代谢机制十分复杂,高通量的基因芯片广泛应用于癌症的研究。癌症发生的不同阶段,不同的癌症亚型,基因突变存在较高的异质性,为探究癌症基因突变的机制,本研究假设处于活跃表达的基因易发生突变,整合不同癌症基因突变和多组织表达谱数据进行聚类和关联分析,同时对高突变率基因突变位点附近的GC含量进行计算分析,综合以上结果,本研究发现关联性不是十分明显,只有在卵巢癌中突变频率大于5%的基因与其在卵巢的表达水平有较高的相关性,相关系数达到0.87~0.97,仍需进一步扩大样本研究。本研究结合GEO数据库和癌症突变率数据库,综合运用了基因差异表达分析,表达谱聚类和关联分析对2型糖尿病、肥胖和癌症相关的数据进行挖掘,为数据库的挖掘提供思路和实践性的参考。