论文部分内容阅读
细菌基因组中存在着许多长度在40-500bp之间,不编码蛋白质的小RNA分子。例如,在大肠杆菌(E. coli)中经实验证实的小的非编码RNA数目已达到70多条。这些sRNA大部分结合于mRNA靶标的起始翻译区(TIR),并以碱基互补配对方式调控其靶基因的转录后表达,此过程通常需要伴侣蛋白Hfq的参与。当结合位点位于mRNA序列翻译起始密码子上游90-120nt之间时,sRNA的结合对mRNA的表达起促进作用,称其为正调控;当结合位点位于mRNA序列的SD序列附近时,sRNA的结合会阻碍核糖体与mRNA序列的结合,对mRNA的表达起阻遏作用,或者使sRNA与mRNA同时降解,此时称其为负调控。因此,准确的预测sRNA靶标对研究sRNA的功能起着关键的作用。由于目前已知正调控的样本数据很少,在这里我们只考虑负调控的情况。我们分别采用Na?ve Bayes方法和支持向量机方法构建了sRNA靶标预测数学模型sRNATargetNB和sRNATargetSVM。为了构建sRNA靶标的预测模型,首先我们收集了46对阳性样本与86对阴性样本组成训练集(见附表1)。然后,考虑到负调控时结合位点的情况,我们选择mRNA序列起始翻译区上游-80nt到下游50nt的序列片段作为候选区间。最后,我们利用二级结构谱来寻找预测sRNA靶标的最优的区间组合。为了评价预测模型,我们还构建了一个独立的包含了22个阳性样本的阳性测试集TESTP和十个随机产生的阴性测试集TESTN1-10。产生阴性测试集的方法如下:对于训练集中涉及到的每一条sRNA,从大肠杆菌全基因组注释的4131条mRNA序列中随机抽取10条,共组成10对阴性测试样本,此过程重复10次,构成十个阴性测试集(在选取过程中,排除了训练集中的132条mRNA序列)。因为训练集中共包含17条sRNA,所以在阴性测试集TESTN1-10中共含有样本1700个。其次,提取用于构建模型的特征变量。对于每一个mRNA序列片段,我们围绕翻译起始区-30~30提取所有可能的子片段,共1000个。对于每一个这样的子片段,我们用“LLLLLL”将其与sRNA序列相连,形成sRNA-LLLLLL-mRNA和mRNA-LLLLLL-sRNA两种情况,再利用RNAfold程序分别预测其最低自由能结构,并以能量较低的结构为基础提取如下的10个特征变量:相连序列中内部环、凸环、发夹环、螺旋区及多分支环中的碱基数占相连序列总碱基数的比例(特征变量1-5),相连序列中单碱基的自由能ΔGm / Lm(特征变量6),两条序列相结合前后的能量差值ΔGm-ΔGs-ΔGT(特征变量7),sRNA与mRNA序列子片段之间形成的核心配对的碱基数(Seed match)(特征变量8),sRNA二级结构中的单链区AU碱基所占的比例和mRNA序列子片段中的单链区AU碱基所占的比例(特征变量9-10)。由于每一条mRNA序列片段都产生1000条子序列,而每一对sRNA-子序列都会有10个特征变量,这样对于每一个sRNA-mRNA序列片段,均可用10000个参数来描述。对于之前构建的包含132个样本的训练集来说,我们得到了一个大小为10000×132的数值矩阵。我们称这个矩阵为sRNA-mRNA相互作用的二级结构谱。鉴于我们的目标是预测sRNA与mRNA序列之间的相互作用,因此可采用机器学习方法来构建模型。Naive Bayes方法,我们以留一交叉有效性分类精度(leave-one-out crossvalidation, LOOCV)为目标函数,以逐步优化算法进行特征变量的筛选,来构建sRNA靶标预测模型sRNATargetNB。Tclass分类系统自动搜寻特征变量数目从1到20的最优特征变量组合。对于每个数目的特征变量集,会产生10组由不同特征变量组成的集合。通过稳定性分析,我们得到了一组包含6个特征变量的最优集合,并以此为基础构建1000个分类器并组成预测模型sRNATargetNB。对于训练集,这个预测模型的分类精度、敏感性和特异性分别为91.67%,76.09%和100%;对于测试集,其分类精度、敏感性和特异性分别达到93.03%,40.90%和93.71%。SVM方法,我们利用LibSVM(V2.83)包来构建sRNA靶标预测模型sRNAtargetSVM。为了与模型sRNATargetNB相比较,我们同样采用了LOOCV分类精度作为目标函数。首先,我们构建了三个特征变量集SET1,SET2,和SET3来分别构建分类模型。SET1包含了10000个参数,SET2则以P值小于0.001为标准,共含有3090个参数,而SET3中的参数共有1785个,都是P值小于0.00001的参数。对于这三个特征向量集,我们分别利用LibSVM中的网格搜索策略搜索近优的惩罚参数C和RBF核参数γ,并以此构建分类模型sRNATargetSVM1、sRNATargetSVM2和sRNATargetSVM3。模型sRNATargetSVM1的分类效果最佳。与分类模型sRNATargetNB(91.67%)相比,sRNATargetSVM1取得了更好的结果,对于训练集,分类精度、敏感性和特异性均为100%;对于测试集,分类精度、敏感性和特异性分别为80.55%, 72.73%和80.65%。尽管sRNATargetSVM1具更高的敏感性,但是我们仍然选择模型sRNATargetNB(阈值=1000)来进行sRNA靶标预测。原因如下:首先,对于每一对sRNA-mRNA的判别,模型sRNATargetNB只需要提取6个特征变量,而模型sRNATargetSVM1则需要提取10000个特征变量,花费更多的时间。其次,模型sRNATargetNB(阈值=1000)具有更高的特异性,相比之下会产生较少的假阳性,得到较少的靶标预测结果,更易于进行实验验证。我们采用sRNATargetNB对E. coli中的55条sRNA进行了靶标预测,当阈值为1000时,预测得到的sRNA靶标数目从3到1055不等。总的说来,我们构建的这个sRNA靶标预测模型,不仅适用于大肠杆菌的sRNA靶标预测,而且也适用于其它细菌中sRNA的靶标预测工作。例如,在阳性测试集中包含的16对来自沙门氏菌的sRNA-mRNA样本,其中有9对被正确预测。由此可说,我们构建的数学模型为实验发现sRNA靶标提供了生物信息学支持。