药效多肽的定量序效关系研究

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:lqlcug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肽对于生物有机体的多种生理生化功能都有着不可替代的重要作用,研发具有药用功效的肽类化合物在近年来新兴的生物制药领域已经得到广泛的关注和重视。与传统药物相比,多肽类药物具有分子量小、热稳定性好、特异性强及不易产生免疫原性等优点;但现有绝大多数药效多肽的生物活性还不够理想、不能满足实际生产应用要求。因此,对已发现的数量足够多的药效多肽进行有目的地改造、进一步优化设计新的高活性药效多肽分子具有重要的理论意义和应用价值。肽和蛋白的空间结构与生物学功能本质上是由其一级结构(即氨基酸组成序列)决定的,高级空间结构较难测定且在后续指导合成中难以精确实现,而肽的一级序列结构简便易得。因此,基于一级序列结构的多肽定量序效模型(Quantitative Sequence-Activity Model, QSAM)成为设计预测高活性新药效多肽的有效手段。本文以支持向量回归(Support Vector Regression, SVR)为基础建模工具,先后从序列结构表征、特征筛选、个体化预测和模型解释等四个关键环节出发,对多肽序效关系模型进行了优化改进,获得了能够高效稳定预测生物活性并明确指导结构优化与改造的多肽QSAM模型,主要工作包括:1.序列结构表征,即如何有效地对多肽一级序列结构进行数值化转换,获得统计模型可识别的描述特征。本文以天然氨基酸的531个物化性质作为描述子(命名为AA531)对多肽序列进行全面综合表征,为进一步克服AA531不适用于不等长肽体系的缺陷并综合考虑多肽序列的上下文关联,引入地统计学(Geostatistics, GS)和多尺度组分(Multi-Scale Conponent, MSC)构建描述子GS-AA531和AA531-MSC。2.特征筛选,并非所有特征都对建模有用,冗余或无用特征会对模型精度和稳定性产生不利影响。对AA531系列描述子表征多肽产生的高维特征集,本文构建二元矩阵重置过滤器(Binary Matrix Resetting Filter, BMRF)实现特征非线性快速降维,再结合多轮末尾淘汰法(Multi-Round Last-Elimination, MRLE)继续精细筛选,最终得到少量的、有明确统计意义的关键特征。3.个体化预测,具有相似分子结构与理化属性的肽类分子,其生物活性往往也较接近。本文首次提出“活性多肽个体化预测”:基于地统计学半变异函数,为每一待测多肽样本选择近邻样本构成其特有的训练样本集,基于保留描述符和特有训练样本集,对每一待测多肽样本实施个体化预测。4.模型解释,高精度预测和合理解释是回归模型的两大主题。针对肽SVR回归模型本身可解释性差的缺陷,本文引入基于F测验的模型显著性分析、保留描述符重要性及效应分析,显著增强了多肽SVR回归预测模型的可解释性能,为后续序列结构优化与改造提供指导。从以上主要技术方法出发,对六个具有药效活性的肽类系列化合物进行了定量序效关系研究:应用描述子AA531分别表征含有58个ACE抑制剂二肽和31个血管缓激肽增效剂五肽的两个活性肽体系,每条二肽序效样本产生1062个特征、五肽序列产生2655个特征;产生的高维描述符特征经多轮(平均10轮次)BMRF筛选降维后,再以MRLE精细筛选,分别得到10个和13个最终保留描述符;基于SVR和保留描述符建立QSAM模型。与16种现有常用描述符和4种建模方法综合比较,本文新建模型得到最优回归分析结果,其内部交叉验证(Q(CV)2)和外部预测能力(Qext2)分别达到0.9397、0.9488(ACE抑制剂)和0.9532、0.9538(血管缓激肽增效剂)。引入的解释性体系同时揭示了ACE抑制剂二肽活性与“N1相对偏好值”等9个具体物化性质显著相关,而第三残基位点对血管缓激肽增效剂五肽最为重要,为后续优化设计提供明确指导。在AA531基础上引入地统计学(GS)和多尺度组分(MSC),从整体上提取多肽序列结构信息,构建描述子GS-AA531和AA531-MSC,应用到两个抗菌肽(Antimicrobial Peptide, AMP)体系的表征:101条阳离子抗菌十五肽,34条序列不等长抗菌肽(14~19个氨基酸组成),特征经BMRF和MRLE筛选后建立QSAM模型,模型拟合、留一法及独立测试都得到稳定优异结果,证实两种新建描述子在捕获多肽上下文关联、表征不等长多肽体系方面具有明显优势。在对含有55个ACE抑制剂三肽和177个HLA-A*0201限制性CTL表位九肽的两个肽体系QSAM实例研究中,进一步从训练样本选择角度出发,率先提出“活性肽个体化预测”:序列表征、特征筛选后,对保留描述符进行加权;引入地统计学半变异函数,在加权欧式距离基础上,确定地统计学变程;以变程为阈值,为每一待测多肽样本选择与其结构相近的近邻训练样本作为其特有的训练样本集,并结合保留特征开展个体化预测。对于活性肽体系,特征筛选和近邻样本选择分别从“列”和“行”方向对其数据矩阵进行了全面优化,两个活性肽体系最终的QSAM分析结果证实了该组合方法的有效性。
其他文献
中国美学概念中的诗书画"三绝"往往被认为是文人的专利,而与宫廷艺术无关。但事实是,早期诗书画的结合就是在宫廷与文人两条线索上并行发展的。南宋杨皇后有多幅题画墨宝传世
消费本来是人类自我完善、自我成就的过程 ,但一个世纪以来的人类消费是建立在对自然、环境、资源的无偿掠夺的基础上的 ,结果使人类进入了自己为自己制造的陷阱之中。分析消
中国人自古以来都崇尚自然,认为人与自然是血肉相连、同构对应的。中国农村庭院的布置就彰显了人与自然之间的亲密"对话"。本文从分析中国文化的基本内核"天人合一"思想入手,
古埃及同其他最初的文明古国一样,是世界秩序建立的初睨。它的艺术以强大的视觉形象征服了臣民,表示对神的敬意,而它的艺术也强烈表现出秩序感。在结合古埃及政治史、技术史
<正>"90后"新生代员工是刚刚步入职场的年轻群体,并逐步成为职场的新势力。他们生活环境相对优越、个性较为突出,具有不同于"60后""70后""80后"员工的职场特点,其离职率也明
<正>青少年是一个特殊的社会群体,他们正处于由未成年到成年的转化过渡时期,他们的思想、行为已由幼年的依赖心理变得相对独立、成熟。但他们毕竟缺乏社会经验,模仿、独断、
<正>糖尿病的慢性并发症是其致死致残的主要原因。DCCT和UKPDS的研究已证实严格的血糖控制可以预防和延缓糖尿病并发症的发生。胰岛素泵(CSII)是胰岛素强化治疗的最好手段。
在《百花图卷》的艺术探索上,本文以“美学思潮变革”一词作为立论的关节点,将其置于两宋审美思潮变动的大背景中,运用比较的方法与北宋时期的宫廷院体画作了多方对照分析,对
稀碱金属锂、铷、铯及其化合物由于具有独特的性能,在发展尖端技术和民用工业中起着越来越重要的作用。本文综述了锂、铷、铯及化合物在能源、医药催化、光学、国防工业、航
利用中国1994年以来的经济数据,通过建立ARIMA模型和二阶段OLS模型对理性预期学派货币中性理论进行了检验。实证结果显示,短期内中国预期的货币供给冲击与非预期的货币供给冲