论文部分内容阅读
抗菌肽是广泛存在于生物体内的一类具有广谱抗菌作用的天然多肽,因其不易导致细菌耐药性,现已成为医药界开发新型抗菌制剂的主要选择,因此识别出更多的抗菌肽并预测其单种或多种抗菌功能具有重要意义。在抗菌肽的识别和功能预测中,基于机器学习的方法因其高精度、低成本、高可行性及高可靠性等优点,被越来越多的应用于抗菌肽的识别和其抗菌功能的预测中,但目前已有的方法还不能同时进行抗菌肽的识别和其抗菌功能的预测,计算精度仍有提高的空间。本文研究基于机器学习的抗菌肽识别及其功能预测,内容主要有:1.提出一种基于单个优化问题的多标签分类方法,该方法不仅能够识别多肽是否为抗菌肽,还能同时预测出抗菌肽所具有的抗细菌功能、抗真菌功能、抗肿瘤细胞功能、抗病毒功能和抗HIV功能等单种或多种抗菌功能;2.针对抗菌肽功能预测问题中有标签样本较少、无标签样本较多且蕴含大量信息的特点,提出基于图的直推预测模型,通过对有标签训练样本和无标签待测样本的共同学习来提升预测性能,并且在利用直推学习方法构建近邻图时,在对各样本局部关联关系计算时对各抗菌功能类别加以了不同权重,将不同类别对预测方法的贡献度区分开来;3.为了更好的验证预测方法的泛化性,本文除了整理利用发表过的数据集外,还结合新公布的APD(Antimicrobial Peptide Database)中的抗菌肽序列以及UniProt(Universal Protein)数据库中的非抗菌肽序列构建了新的与训练集序列同源性较低的测试集来对预测方法进行实验;采用K-Spaced氨基酸对组成方法(Composition of K-Spaced Amino Acid Pairs,CKSAAP)进行多肽序列特征信息的提取。结果表明,与已有的iAMP-2L预测方法相比,本文方法在全局预测精度和多标签预测性能上均有一定提升。为了更好的开展交流,基于本文预测方法的在线预测平台也已上线,可为感兴趣的研究人员提供下载和预测服务。