论文部分内容阅读
MicroRNA(miRNA)是机体内源性表达的一类长度约为22个碱基的非编码小RNA。MicroRNA通过与靶mRNAs的3’非翻译区结合成双链,在转录后水平上抑制靶基因的mRNA翻译或降解靶基因mRNA来发挥调节作用。根据miRBase数据库最新版本统计,目前己经在142个物种中总共发现了15172个microRNA基因,产生17341个成熟microRNA及其反义链。目前认为microRNA参与很多重要的生物学过程和行为,如细胞代谢,细胞发育分化,胞间通信,细胞凋亡,造血作用,胰岛素分泌,氧化应激,等等。更重要的是,研究表明在某些疾病发生时,microRNA表达水平也随之发生变化:如帕金森综合症,神经退行性病变,精神分裂症和肿瘤发生。
MicroRNA在不同物种和组织中表达水平差异很大,所以,能准确而灵敏地检测出microRNA在相应物种、组织器官中的含量非常重要。传统实验方法检测microRNA过程冗长,技术复杂,且很难获得表达丰度低,具有组织和时间表达特异性的microRNA。Sanger测序在引物设计、测序反应等方面存在困难,并且Sanger测序只能针对已有小RNA设计引物。较短的序列长度虽然是目前新一代测序难以打破的瓶颈,却正好可以覆盖microRNA的长度。新一代测序研究microRNA可实现在无需预先知道序列信息的情况下高通量的研究小RNA分子。同时,通过新一代测序技术进行深度测序,可以检测到低表达的微量microRNA分子。
新一代测序能更灵敏而准确的检测microRNA,但仅完成测序还是远远不足的。介于目前还没有一个统一的测序结果格式,而各个测序公司的测序结果与质量标准不尽相同,同时,测序结果的数据量也在以惊人的速度扩增,已经完全超出人力分析的范围,应用生物信息学技术将测序结果进行解读,按照研究需要进行相应的后续分析,转化成适合研究人员理解的信息成为目前最为迫切的需求。
本课题利用生物信息学技术建立了一个完整的microRNA高通量测序数据分析流程,能够一次性完成从最初的测序原始数据预处理到最终的microRNA表达量分析以及多个样本的microRNA表达量差异化分析。同时,还整合了预测未知microRNA的功能,将流程的实用性和适用性进一步提高。另外本分析流程提供了丰富的选择参数,研究者在应用分析流程的过程中可以实现不同数据的个性化分析。本课题除了完成分析流程的开发以外,还将分析流程整合于网络平台,取名mirTools,免去了研究者安装软件,调试流程,下载数据库等准备工作。同时,平台具有友好的图形化界面,帮助研究者对测序数据进行理解。通过使用平台,用户可以:
1.过滤测序数据中的接头和低质量数据等;
2.将测序数据归入microRNA、非编码RNA、重复序列、外显子等4个分类并进行详细注释;
3.预测未能注释的序列中包含的未被发现的microRNA及其二级结构;
4.统计分析差异表达的microRNA。
为了测试流程的准确性,我们选择了Morin人类胚胎干细胞和胚胎体文献中的测序数据进行分析,分别得到595个和622个microRNA,来自272和281个家族。MicorRNA以总表达量和代表序列的表达量两种统计方式进行差异表达分析,分别得到156个和128个microRNA的表达量存在差异。用Pearson方法分析本课题得到的差异表达数据与原文献中的差异表达数据,相关系数为r=O.99,证明了本分析流程有着较高的可靠性。