基于机器学习的细菌sRNA靶标预测研究

来源 :中国人民解放军军事科学院 | 被引量 : 0次 | 上传用户:nnhdceh986532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细菌基因组中存在着许多长度在40-500bp之间,不编码蛋白质的小RNA分子。例如,在大肠杆菌(E. coli)中经实验证实的小的非编码RNA数目已达到70多条。这些sRNA大部分结合于mRNA靶标的起始翻译区(TIR),并以碱基互补配对方式调控其靶基因的转录后表达,此过程通常需要伴侣蛋白Hfq的参与。当结合位点位于mRNA序列翻译起始密码子上游90-120nt之间时,sRNA的结合对mRNA的表达起促进作用,称其为正调控;当结合位点位于mRNA序列的SD序列附近时,sRNA的结合会阻碍核糖体与mRNA序列的结合,对mRNA的表达起阻遏作用,或者使sRNA与mRNA同时降解,此时称其为负调控。因此,准确的预测sRNA靶标对研究sRNA的功能起着关键的作用。由于目前已知正调控的样本数据很少,在这里我们只考虑负调控的情况。我们分别采用Na?ve Bayes方法和支持向量机方法构建了sRNA靶标预测数学模型sRNATargetNB和sRNATargetSVM。为了构建sRNA靶标的预测模型,首先我们收集了46对阳性样本与86对阴性样本组成训练集(见附表1)。然后,考虑到负调控时结合位点的情况,我们选择mRNA序列起始翻译区上游-80nt到下游50nt的序列片段作为候选区间。最后,我们利用二级结构谱来寻找预测sRNA靶标的最优的区间组合。为了评价预测模型,我们还构建了一个独立的包含了22个阳性样本的阳性测试集TESTP和十个随机产生的阴性测试集TESTN1-10。产生阴性测试集的方法如下:对于训练集中涉及到的每一条sRNA,从大肠杆菌全基因组注释的4131条mRNA序列中随机抽取10条,共组成10对阴性测试样本,此过程重复10次,构成十个阴性测试集(在选取过程中,排除了训练集中的132条mRNA序列)。因为训练集中共包含17条sRNA,所以在阴性测试集TESTN1-10中共含有样本1700个。其次,提取用于构建模型的特征变量。对于每一个mRNA序列片段,我们围绕翻译起始区-30~30提取所有可能的子片段,共1000个。对于每一个这样的子片段,我们用“LLLLLL”将其与sRNA序列相连,形成sRNA-LLLLLL-mRNA和mRNA-LLLLLL-sRNA两种情况,再利用RNAfold程序分别预测其最低自由能结构,并以能量较低的结构为基础提取如下的10个特征变量:相连序列中内部环、凸环、发夹环、螺旋区及多分支环中的碱基数占相连序列总碱基数的比例(特征变量1-5),相连序列中单碱基的自由能ΔGm / Lm(特征变量6),两条序列相结合前后的能量差值ΔGm-ΔGs-ΔGT(特征变量7),sRNA与mRNA序列子片段之间形成的核心配对的碱基数(Seed match)(特征变量8),sRNA二级结构中的单链区AU碱基所占的比例和mRNA序列子片段中的单链区AU碱基所占的比例(特征变量9-10)。由于每一条mRNA序列片段都产生1000条子序列,而每一对sRNA-子序列都会有10个特征变量,这样对于每一个sRNA-mRNA序列片段,均可用10000个参数来描述。对于之前构建的包含132个样本的训练集来说,我们得到了一个大小为10000×132的数值矩阵。我们称这个矩阵为sRNA-mRNA相互作用的二级结构谱。鉴于我们的目标是预测sRNA与mRNA序列之间的相互作用,因此可采用机器学习方法来构建模型。Naive Bayes方法,我们以留一交叉有效性分类精度(leave-one-out crossvalidation, LOOCV)为目标函数,以逐步优化算法进行特征变量的筛选,来构建sRNA靶标预测模型sRNATargetNB。Tclass分类系统自动搜寻特征变量数目从1到20的最优特征变量组合。对于每个数目的特征变量集,会产生10组由不同特征变量组成的集合。通过稳定性分析,我们得到了一组包含6个特征变量的最优集合,并以此为基础构建1000个分类器并组成预测模型sRNATargetNB。对于训练集,这个预测模型的分类精度、敏感性和特异性分别为91.67%,76.09%和100%;对于测试集,其分类精度、敏感性和特异性分别达到93.03%,40.90%和93.71%。SVM方法,我们利用LibSVM(V2.83)包来构建sRNA靶标预测模型sRNAtargetSVM。为了与模型sRNATargetNB相比较,我们同样采用了LOOCV分类精度作为目标函数。首先,我们构建了三个特征变量集SET1,SET2,和SET3来分别构建分类模型。SET1包含了10000个参数,SET2则以P值小于0.001为标准,共含有3090个参数,而SET3中的参数共有1785个,都是P值小于0.00001的参数。对于这三个特征向量集,我们分别利用LibSVM中的网格搜索策略搜索近优的惩罚参数C和RBF核参数γ,并以此构建分类模型sRNATargetSVM1、sRNATargetSVM2和sRNATargetSVM3。模型sRNATargetSVM1的分类效果最佳。与分类模型sRNATargetNB(91.67%)相比,sRNATargetSVM1取得了更好的结果,对于训练集,分类精度、敏感性和特异性均为100%;对于测试集,分类精度、敏感性和特异性分别为80.55%, 72.73%和80.65%。尽管sRNATargetSVM1具更高的敏感性,但是我们仍然选择模型sRNATargetNB(阈值=1000)来进行sRNA靶标预测。原因如下:首先,对于每一对sRNA-mRNA的判别,模型sRNATargetNB只需要提取6个特征变量,而模型sRNATargetSVM1则需要提取10000个特征变量,花费更多的时间。其次,模型sRNATargetNB(阈值=1000)具有更高的特异性,相比之下会产生较少的假阳性,得到较少的靶标预测结果,更易于进行实验验证。我们采用sRNATargetNB对E. coli中的55条sRNA进行了靶标预测,当阈值为1000时,预测得到的sRNA靶标数目从3到1055不等。总的说来,我们构建的这个sRNA靶标预测模型,不仅适用于大肠杆菌的sRNA靶标预测,而且也适用于其它细菌中sRNA的靶标预测工作。例如,在阳性测试集中包含的16对来自沙门氏菌的sRNA-mRNA样本,其中有9对被正确预测。由此可说,我们构建的数学模型为实验发现sRNA靶标提供了生物信息学支持。
其他文献
雌激素受体(estrogen receptor, ER)是核受体超级家族成员之一,主要调节与雌激素相关的基因转录,在乳腺癌的发生发展过程中起着重要作用。目前认为,ER是乳腺癌治疗的靶标和预后的指标之一。ER包括两种亚型:ERα和ERβ,二者都由A、B、C、D、E和F六个结构域组成,含两个转录激活区,即AF1和AF2。AF1具有雌激素不依赖的转录激活功能,位于A/B区;AF2具有雌激素依赖的转录激活
本文在文献[1]的基础上,引入工程辐射势的概念,建立了一个一般情况下辐射传热的二阶微分方程的数学模型。该方程具有一般传输方程的特点,使得工业过程中辐射传热的处理与传导、对流问题的处理在方法上相一致。
RNA编辑(RNA editing)是在初始转录本上插入、’删除或替换单个或多个核苷酸从而改变原遗传信息的过程,是一种重要的转录后调控事件。目前两种碱基替换类型的RNA编辑研究较多,分别是广泛存在于真核高等生物中的A-to-IRNA编辑事件与广泛存在于高等植物线粒体中的C-to-U RNA编辑事件。近几年,哺乳动物体内的A-to-I RNA编辑现象引起广大科学工作者的关注。它是指ADAR (ade
端粒的生物学功能主要是保护染色体末端,避免核酸酶对染色体末端的降解,防止染色体之间发生融合和重排,在维持基因组结构的完整性和稳定上起重要作用。端粒酶由端粒酶逆转录酶(Telomerase Reverse Transcriptase, TERT)和端粒酶RNA (Telomerase RNA component , TR或TER)模板组成的具有特殊逆转录活性的核糖核蛋白复合物。它以自身RNA为模板通
目的:MicroRNAs (miRNAs)是近年来发现的一类长度为~21nt的内源、单链的非编码小RNA,在生物体内发挥着重要的调控功能。到目前为止已有4000多个miRNA被陆续发现,它们广泛地存在于55个物种中。尽管有研究给出人、果蝇和线虫miRNA的数量估计,分别不超过255、110和120个,然而,有证据表明miRNA的数量远远超出这一估计,还有大量的miRNA有待发现。miRNA的发现主
雌激素类化合物是防治急性放射病的有效药物之一,如国内研制的523、E838等,因此我们推测雌激素信号途径中的组成成分应与辐射防护相关。目前公认的是,雌激素通过与雌激素受体(ER)起作用,调节ER的转录活性,这一过程受一类称为ER共调节因子的蛋白质的平衡调节,因此我们推测ER共调节因子在辐射防护中可能起重要作用,我们尝试了多种ER共调节因子与辐射应答相关的可能性,如FHL1、FHL3、RPBMS、P
猫泛白细胞减少症是一种由猫泛白细胞减少症病毒引起的,猫科动物常见的接触性传染病,临床发病率和死亡率均较高,疫苗免疫接种是预防和控制该病最经济、最直接的措施。然而,国内几无商业化宠物疫苗,特别是猫用疫苗,国外疫苗进口困难,亟需开发新型宠物用高效疫苗。对国内外猫泛白细胞减少症疫苗现状及不同类型疫苗(灭活疫苗、减毒活疫苗等)的优缺点进行了综述与分析,以期为我国猫泛白细胞减少症疫苗的研发提供参考。
传统观点认为,神经元是终末分化的细胞,已经退出细胞周期,不再具有分裂的能力。而本室前期研究发现,神经元在一定条件下是可以分裂的。探究神经元脱离细胞周期的分子机理具有重要的理论与实践意义。我们希望从MageD1与MageH1这对序列相似而表达分布不同的分子上为神经元脱离细胞周期作出有益的注解。MageD1与MageH1分子同属于MAGEⅡ类蛋白家族,两者序列高度相似。MageD1主要分布于未分化的细
人乳铁蛋白(LTF)富含于人母乳初乳中,具有广谱抗菌、调节体内铁平衡、促进细胞生长等广泛生理作用。由于来源的问题,因而生产的成本很高,价格昂贵。利用动物乳腺生物反应器来生产不仅维持生产的成本低,而且产量高,能够进行翻译后修饰、正确折叠。但位置效应的影响是其主要技术瓶颈之一。细菌人工染色体(BAC)上完整的乳蛋白基因座,包含位点独立性表达所需的全部元件,作为转基因载体就有可能克服外源基因整合时位置效
虫媒病毒又称节肢动物病毒,是指能在敏感的节肢动物,如蚊、蜱、白蛉、蠓等吸血昆虫体内繁殖但不致病,通过吸血昆虫叮咬而在人畜间传播的一组病毒。国际上已发现的虫媒病毒约537种,其中130余种可引起人畜疾病,表现为发热、皮疹、出血热甚至病毒性脑炎等。在人类历史上虫媒病毒曾经使成千上万的人畜患病或死亡,造成巨大的经济损失。目前,虫媒病毒仍然在各国甚至在世界范围造成严重传染病的流行。我国幅员辽阔,地理景观复