论文部分内容阅读
定量序效关系主要从生物分子一级序列出发定量研究序列与活性(性质)之间的内在联系,并给出恰当的函数描述,从而达到对未知目标功能预测及指导结构修饰和改造等目的。特征表征和特征筛选是定量序效研究中的两个重要问题。合理的特征表征是决定定量序效研究的重要前提。一级结构决定了序列的高级结构与功能,且高级结构甚难测定而一级结构简便易得,本文提出了仅基于序列的直接表征法和地统计学关联与多尺度组分结合(Geostatistics Correlation-multi-scale Component, GC-MSC)表征法两种特征参数方提取法。直接表征法以531个物化性质参数(对多肽序列)和1123个拓扑结构参数(对碱基序列)对分子序列逐位替换,但要求样本序列长度统一。GC-MSC基于单个氨基酸或碱基的性质参数将地统计学关联与多尺度组分相结合,有效提取序列间的上下文关联、组分信息,具有计算简便、适于不等长序列等优点。特征筛选是定量序效关系研究中的另一个关键。无关和冗余特征将影响预测精度并对模型解释带来困惑。从m个特征中选取最优特征子集理论上有2m种可能,在m较大时无法穷举。本文提出一种基于支持向量机并引入有条件随机矩阵的二元矩阵重排过滤器和多轮末尾淘汰相结合的高维特征筛选方法,能够有效地筛选出意义明确的特征,且具计算简单、筛选速度快等优点。论文从序列表征和特征选择两个方面出发,以支持向量机(Support Vector Machine, SVM)作为基本工具,对152个HLA-A*0201限制性CTL表位、IEDB数据库中4个HLAⅡ分子结合肽综合数据集、38个E.coli启动子启动强度进行了定量序效关系研究,结果报道如下:1.CTL表位鉴定。采用天然氨基酸531个理化性质参数表征HLA-A*0201限制性表位9肽,从531x9个初始描述子出发,经二元矩阵重排过滤器粗筛和多轮末尾淘汰精细筛选,获得18个物化意义明确的保留描述子。以支持向量回归构建定量序效模型,其拟合、留一法交互验证以及外部预测的R2、Qcv2、Rext2、Qext2和RMSEext分别为0.957、0.708、0.817、0.818和0.366,明显优于文献报道。通过对全组合虚拟9肽的预测,得到了多条预测活性高于已知表位肽的9肽,为高活性多肽疫苗分子设计提供了切实指导。2. MHC Ⅱ类分子结合肽预测。基于氨基酸531个理化性质参数,以GC-MSC提取IEDB数据库中4个人类MCHⅡ(HLAⅡ)分子结合肽不等长氨基酸序列的描述子,经二元矩阵重排过滤器和多轮末尾淘汰对获得高维特征集筛选后,各数据集描述子个数均大幅度减少,且基于保留描述子构建的QSAM精度明显提高。3. E.coli启动子启动强度预测。基于碱基1123个拓扑结构参数,以直接表征法和GC-MSC分别表征大肠杆菌启动子序列,产生的高维特征经相关性分析、二元重排矩阵过滤器筛选后,分别保留20和27个描述子,以偏最小二乘回归(Partial Least Square Regression, PLSR)构建的QSAM模型Qcv2分别为0.806、0.843,以SVM构建的QSAM模型Qcv2分别为0.838、0.882。通过对保留描述子与启动强度关系的分析,发现大肠杆菌启动子启动强度与某些碱基子串及序列特定区域的相关碱基性质显著相关,对大肠杆菌新型强启动子的设计具参考价值。