论文部分内容阅读
近几年,科研人员在哺乳动物体内发现了植物mi RNA分子,并推断其来源于食物。这一轰动性的发现对生物学、医学、农学等多个领域都有深远影响,植物xenomi R假设也由此建立起来。遗憾的是,植物xenomi R假设至今仍未得到业内专家公认,其主要分歧在于:支持者认为在动物体内检测到的植物mi RNA是真实存在于动物体内的植物mi RNA;而否认者认为这些检测到的植物mi RNA是由样本污染或者仪器误差造成的假阳性结果。目前在这个问题上并没有权威的生物实验证据得到广泛认可。值得注意的是,支持或否认xenomi R假设的相关研究的思路基本相同:首先假设植物xenomi R存在,在这样的假设下设计动物喂养实验并设置对照组(通常是给某种动物喂食包含不同含量植物mi RNA的食物),然后测量动物体液或组织中的植物mi RNA含量,根据实验组和对照组在植物mi RNA种类和含量上的差别,得出支持或否认植物xenomi R假设的结论。然而,这种实验的方式忽略了不同动物物种、不同植物性食物以及不同组织器官、体液的特异性,这可能是导致不同研究团队之间结果矛盾的原因之一;另外,单个研究团队的样本种类单一、数量有限,其结果难以在统计层面与污染物或者仪器误差区分开。在这种“至上而下”的生物实验结果无法得到公认结果的情况下,可以利用生物信息学方法,采用“至下而上”的思路,从数据角度出发,挖掘植物xenomi R存在或者不存在的证据。然而,当前植物xenomi R的生物信息相关研究存在以下问题:首先,在数据收集上,当前研究存在着动物数据采集规模小、种类杂乱等问题,这可能导致多种因素、多种噪音同时混杂在数据中,通常难以得到可靠结论;其次,在数据分析上,存在着角度单一、不够深入全面、用特例代表全体等问题,使得分析结果可靠性受到质疑。当前,大量的小RNA高通量测序数据存储在可以公开访问的数据库中,这些数据蕴含着植物xenomi R存在或不存在的证据,同时,这些数据具有高维度,高噪音,高计算量等特点。本文拟从大量小RNA测序数据出发,使用相关分析方法克服数据的高维、海量、高噪音、多种因素混杂等问题,在其中寻找植物xenomi R存在或不存在的证据;在得到植物xenomi R存在的可靠结论后,本文根据植物mi RNA序列特征来预测所有可能进入人体的植物mi RNA;最后,本文结合靶点附近RNA二级结构,准确预测植物xenomi R的在人体内的靶点及可能发挥的生物功能,推断植物xenomi R可能参与到的生物通路。本文研究内容如下:(1)基于大量小RNA测序数据的植物xenomi R生物信息学验证收集健康人类体液、组织器官新鲜样本的小RNA测序数据,存储在本地计算机集群中;整合测序数据分析软件,合理建立人体中植物mi RNA的分析流程;在计算机集群中进行并行提取以上样本中的植物mi RNA读段,并计算得到样本的植物mi RNA谱数据;收集并获得微生物中的植物mi RNA谱数据;收集多种植物的小RNA表达谱数据;结合统计学方法、聚类分析等方法比较人体内植物mi RNA谱数据与微生物中的植物mi RNA谱数据的差异以及与植物内植物mi RNA表达谱数据差异;按照体液或组织将以上获得的人体mi RNA表达谱数据进行分类对比,分析人体内植物mi RNA的组织特异性。(2)可进入人体内的植物mi RNA预测收集存在于人体内以及不存在于人体内的植物mi RNA正负样本,合理收集特征,形成特征矩阵;用随机森林模型对样本进行学习及其精度验证,并给出最重要的若干特征排序;最后,使用所获得的随机森林模型在所有植物mi RNA集合上预测可能进入人体的植物mi RNA。(3)结合候选靶点附近RNA二级结构特征的植物xenomi R靶点筛选和功能预测基于启发式算法,本文结合RNA动态折叠规则建立新的RNA二级结构预测方法fled Fold,并用C++实现;基于mi Randa和Target Scan两种mi RNA靶点预测工具在人类基因组中初次预测可能的植物靶点,并组成候选靶点集;使用fled Fold预测候选靶点附近的RNA二级结构,并结合二级结构对候选mi RNA靶点进行进一步筛选;最后,使用筛选出的靶点进行通路、功能的预测和分析。值得注意的是,本文所得结果并不意味着转基因作物对人体可能产生影响。综上所述,本文为证明或证伪植物xenomi R假设,从大量人体体液和组织小RNA测序数据出发,结合使用统计分析方法,在海量小RNA测序数据中挖掘植物xenomi R存在或者不存在的可靠证据。结合以上分析提供的可靠信息,本文将使用机器学习方法预测所有可能进入人体的植物mi RNA。最后,本文结合候选靶点附近二级结构信息构建植物mi RNA在人体内靶基因筛选流程,获得高可能的靶点集合,并以此探究植物mi RNA在人体内可能发挥的生物功能。本文避免了用单一研究团队的实验数据所带来的偏差,同时可以有效地区分真实存在的xenomi R与污染物、仪器误差造成的假阳性结果,给进一步深入研究植物xenomi R的相关机制、作用和应用提供了前提保证。