基于高维特征选择的定量序效关系研究

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:lxw19831201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
定量序效关系主要从生物分子一级序列出发定量研究序列与活性(性质)之间的内在联系,并给出恰当的函数描述,从而达到对未知目标功能预测及指导结构修饰和改造等目的。特征表征和特征筛选是定量序效研究中的两个重要问题。合理的特征表征是决定定量序效研究的重要前提。一级结构决定了序列的高级结构与功能,且高级结构甚难测定而一级结构简便易得,本文提出了仅基于序列的直接表征法和地统计学关联与多尺度组分结合(Geostatistics Correlation-multi-scale Component, GC-MSC)表征法两种特征参数方提取法。直接表征法以531个物化性质参数(对多肽序列)和1123个拓扑结构参数(对碱基序列)对分子序列逐位替换,但要求样本序列长度统一。GC-MSC基于单个氨基酸或碱基的性质参数将地统计学关联与多尺度组分相结合,有效提取序列间的上下文关联、组分信息,具有计算简便、适于不等长序列等优点。特征筛选是定量序效关系研究中的另一个关键。无关和冗余特征将影响预测精度并对模型解释带来困惑。从m个特征中选取最优特征子集理论上有2m种可能,在m较大时无法穷举。本文提出一种基于支持向量机并引入有条件随机矩阵的二元矩阵重排过滤器和多轮末尾淘汰相结合的高维特征筛选方法,能够有效地筛选出意义明确的特征,且具计算简单、筛选速度快等优点。论文从序列表征和特征选择两个方面出发,以支持向量机(Support Vector Machine, SVM)作为基本工具,对152个HLA-A*0201限制性CTL表位、IEDB数据库中4个HLAⅡ分子结合肽综合数据集、38个E.coli启动子启动强度进行了定量序效关系研究,结果报道如下:1.CTL表位鉴定。采用天然氨基酸531个理化性质参数表征HLA-A*0201限制性表位9肽,从531x9个初始描述子出发,经二元矩阵重排过滤器粗筛和多轮末尾淘汰精细筛选,获得18个物化意义明确的保留描述子。以支持向量回归构建定量序效模型,其拟合、留一法交互验证以及外部预测的R2、Qcv2、Rext2、Qext2和RMSEext分别为0.957、0.708、0.817、0.818和0.366,明显优于文献报道。通过对全组合虚拟9肽的预测,得到了多条预测活性高于已知表位肽的9肽,为高活性多肽疫苗分子设计提供了切实指导。2. MHC Ⅱ类分子结合肽预测。基于氨基酸531个理化性质参数,以GC-MSC提取IEDB数据库中4个人类MCHⅡ(HLAⅡ)分子结合肽不等长氨基酸序列的描述子,经二元矩阵重排过滤器和多轮末尾淘汰对获得高维特征集筛选后,各数据集描述子个数均大幅度减少,且基于保留描述子构建的QSAM精度明显提高。3. E.coli启动子启动强度预测。基于碱基1123个拓扑结构参数,以直接表征法和GC-MSC分别表征大肠杆菌启动子序列,产生的高维特征经相关性分析、二元重排矩阵过滤器筛选后,分别保留20和27个描述子,以偏最小二乘回归(Partial Least Square Regression, PLSR)构建的QSAM模型Qcv2分别为0.806、0.843,以SVM构建的QSAM模型Qcv2分别为0.838、0.882。通过对保留描述子与启动强度关系的分析,发现大肠杆菌启动子启动强度与某些碱基子串及序列特定区域的相关碱基性质显著相关,对大肠杆菌新型强启动子的设计具参考价值。
其他文献
现代天气预报业务是建立在海量、实时的观测、分析数据基础上的,我国气象事业的快速发展使得各种监测资料和预报产品层出不穷,随时间成指数增加。在预报人员少,工作任务多,信息量
溉沌是在确定论系统中出现的一种貌似不规则的、内在的随机性运动。自从1963年Lorenz第一次发现混沌吸引子,近半个世纪以来,混沌动力学得到了迅猛的发展,取得了喜人的成果,并
四川青海田鼠鼠疫自然疫源地位于石渠县。近年来,鼠疫疫源地动物间鼠疫呈流行态势,活跃性较强,感染鼠疫的物种不断增多,对当地卫生安全和畜牧业健康发展构成了潜在威害。蚤类是鼠
为管理信息系统建模通常是一件非常复杂和困难的工作,为了控制成本和减少系统模型的不一致性,人们从设计到需求分析阶段都采取了很多办法。通常,人们总是希望使复杂的问题简
日全食是一种罕见的天文现象。日全食之所以受重视,更主要的原因是它的天文观测价值巨大。太阳和地球有着极为密切的关系,日食可以为研究太阳和地球的关系提供良好的机会。近几
暗物质探测是粒子物理学、天体物理学和宇宙学的重大前沿课题之一,国际上通常采用直接探测法探测暗物质候选粒子WIMP。中国暗物质实验(CDEX)以高纯锗晶体作为主探测器,液氩作为反
在分形几何中,随着连分数相关性质及经典问题的相继解决,人们开始将目光投向Luroth展式相关问题的研究.本文主要讨论了Luroth展式的部分商数和的极限定理和Hausdorff维数,并
谷氨酸棒状杆菌是一种重要的传统工业微生物,被广泛应用于氨基酸、维生素和核苷酸的工业化生产中。其基因组学和分子遗传操作工具的快速发展,使它具备了作为新型细胞工厂的潜
白额高脚蛛(Heteropoda venatoria)是广泛分布于全球热带以及副热带地区的室内最大型蜘蛛,其粗毒能使大部分昆虫致死。在本研究中我们通过构建白额高脚蛛毒腺cDNA文库,获得了
设P是一种群论性质,若群G的所有真商群具有群论性质P,但是G本身不具备性质P,那么称群G为外P-群。对于不同的性质P,不少种外P-群的结构已经被群论工作者研究过。对于这类群的研究