论文部分内容阅读
主要组织相容性复合物(Major Histocompatibility Complex,MHC)主要参与抗原的呈递,MHC分子与抗原短肽的结合是免疫系统产生免疫反应中必不可少的一个环节。因此MHC分子亲和肽的精确预测有着重要的实际意义,可以让人们更好的理解免疫应答机制,也可指导表位疫苗的设计和研制。计算机辅助预测在该领域的应用很大程度上减少了在预测问题上的财力和人力投入,并且相比传统的实验测定方法缩短了预测时间。 MHCⅡ类分子呈现高度多态性,并且其亲和肽的长度并不固定,这大大增加了MHCⅡ类分子多肽绑定预测的难度,针对MHCⅡ类分子亲和肽预测我们提出了基于两个不同策略的方法。第一种是基于集成学习策略AvgTanh我们提出了MetaMHCⅡpan集成分类器,该方法使用多个不相同的跨亚型分类器作为基础分类器,在预测结果上相比单个分类器在整体预测准确度上有着一定的性能提升。第二种方法中,考虑MHCⅡ类分子多肽绑定的特异性,我们提出了计算不同长度多肽相似度的方法MHC2SK(MHCⅡ String Kernel),相比先前提出的相似度度量方法SRBF和GS有更好的表现性能。我们进一步将MHC2SK扩展为MHC2SKpan,通过共享分子间的绑定信息,MHC2SKpan能够为任何有已知蛋白序列的MHCⅡ类DR分子提供多肽绑定预测。为探讨MHC2SKpan的预测性能,我们在不同的基准数据集上与其他跨亚型预测方法做了详细对比,从实验结果可以看到MHC2SKpan好于其他预测分类器,是目前预测性能最好的方法。