论文部分内容阅读
在世界范围内都具有高发病率和死亡率的乳腺癌是女性中最常见的癌症。长链非编码RNA(long non-coding RNA,lncRNA)是指一种长度大于200个核苷酸且不编码蛋白质的非编码RNA。越来越多的研究证实,lncRNA在乳腺癌中扮演着重要的角色。本文整合了TCGA(The Cancer Genome Atlas Project)数据库中乳腺癌lncRNA和mRNA的表达谱数据和乳腺癌临床患者的样本信息,旨在通过生物信息学的方法,筛选出乳腺癌预后lncRNA标志物,并通过对lncRNA和mRNA的相关性分析,推断lncRNA在乳腺癌中的调控作用。首先,本研究收集了1052例乳腺癌临床患者样本和13159个lncRNA表达谱,并将所有这些临床患者样本随机分成训练集和测试集。在训练集中,本研究对初步筛选后的lncRNA进行了单变量Cox回归分析。使用Robust似然生存模型对得到的lncRNA进行建模分析,并将模型迭代1000次。最终,选择在所有模型中出现频率超过600次的11个lncRNA作为乳腺癌关键预后lncRNA。通过多变量Cox回归分析建立11个lncRNA的风险评分公式,计算每个患者的风险分数,并在不同的数据集中对这11个关键预后lncRNA进行生存分析。结果发现这11个lncRNA能够有效地对具有不同总生存期的高/低风险组患者进行分类,表明这11个关键预后lncRNA可能在乳腺癌预后中起着关键作用。其次,本研究利用mRNA表达谱对乳腺癌中lncRNA的功能进行了分析。将乳腺癌患者分为早期(Stage I)、中期(Stage II)和晚期(Stage III,IV),对lncRNA和mRNA在不同分期及总样本中进行差异分析,筛选差异表达的lncRNA和mRNA。计算不同分组下正常组和癌症组差异表达lncRNA和mRNA的Pearson相关系数,得到相对应的差异lncRNA-mRNA调控对。筛选不同分组中lncRNA-mRNA的强相关调控对,并对强相关调控对中的mRNA进行通路富集分析。结果发现筛选出的mRNA大多数与癌症及细胞间的代谢相关,不同分期下所富集的GO和KEGG通路未发现明显的区别,说明这些通路在癌症发生发展过程中的每个阶段可能都起到较为关键的作用。而对于正常组和癌症组,富集到的通路则有显著区别,说明所筛选出的强相关lncRNA-mRNA调控对在正常样本组织和癌症样本组织里具有不同的调控状态和调控功能。最后,本研究对11个关键预后lncRNA和已知的三个关键基因(Her2,ESR1,PGR)进行了关联分析。通过数据分析可以发现基因ESR1、PGR与11个关键预后lncRNA具有一定的相关性,这两个基因可能在一定程度上调控这11个关键预后lncRNA,进而影响乳腺癌的预后。本文采用TCGA数据库中的lncRNA和mRNA数据分析了lncRNA对乳腺癌的预后及调控的影响。本文所采用的研究方法和研究结果对寻找乳腺癌的预后lncRNA标志物及揭示乳腺癌lncRNA调控机制可能具有重要的意义。而本文中所发现的11个乳腺癌关键预后lncRNA有望成为乳腺癌预后的潜在标志物。