论文部分内容阅读
非共价相互作用(Non-covalent Interactions,NCIs)又称弱相互作用,这些弱相互作用几乎无处不在,并且在环境、化学、材料以及生命等多个学科领域的研究中扮演着极为重要的角色。非共价键是与共价键相对而言的,不同之处在于其形成过程中不存在电子的共用,但包含了不同属性的、复杂的相互作用,常见的如氢键、范德华力、色散力、π-π相互作用以及卤键等。NCIs涉及到广泛的、与不同尺度分子体系有关的实验现象,特别是对于存在着大量NCIs的大分子体系的研究非常重要。因此,研究非共价相互作用,对环境污染的预防和治理、超分子化学的研究、分子的识别和组装、材料的光电性及导电性和生物大分子稳定性和识别过程等方面具有重要的理论和现实意义。由于NCIs的复杂本质,我们对NCIs认识还相当有限,对精准的NCIs的实验和理论研究工具的需求依然迫切。目前,获得非共价相互作用的方法有实验方法和理论计算方法。实验方法包括红外光谱法,核磁共振法等。通常实验方法准确度较高,但都需要精密昂贵的实验仪器,复杂的实验过程和较多的人力资源,对于大分子来说不易操作。理论计算方法中较为准确地计算方法是基于第一性原理的量子化学计算方法,它包括从头计算、密度泛函理论、微扰理论等。理论计算方法与实验相比,可以大幅节省时间和资源,但目前要达到准确计算的花费也是非常昂贵的,尤其对于大分子来说。近年来,人工智能的再次兴起,为理论化学计算方法的提高和改进提供了新途径,从而为解决非共价相互作用理论计算中难度比较大的问题提出相对简单、高效的新方案。本文针对非共价相互作用的量子化学方法计算精度的提高和预测模型进行了研究,主要成果如下:(1)提出了一种针对小型化学分子数据库的“基于相关性和差异性混合距离的数据集划分方法(HSPXY)”。数据集划分方法的使用,对于基于规模较小数据库建立的模型性能影响很大。数据集划分方法主要分为两类:基于聚类和基于统一分布的方法。通常情况下,基于统一分布的数据集划分方法简单易用,但不考虑样本之间的相关性。因此,有可能不能正确地分配距离较远但相关性很大的样本。在常用的联合x-y距离的数据划分方法(SPXY)的差异距离基础上,充分考虑选取的数据集中样本之间相关性对模型构建的影响,本文提出了一种改进的基于相关性和差异性混合距离的数据集划分方法HSPXY。为了验证其有效性,该方法在小型化学数据库上与一些现有的经典数据划分方法进行比较,使用偏最小二乘方法建立回归模型。与其他同类划分方法相比,基于HSPXY数据划分方法选取了最具有代表性的训练集,构建的回归模型获得了更小的均方根误差和更高的相关系数。这表明该方法为获得具有代表性的训练集提供了一个新的思路。(2)提出了一种“基于非共价相互作用数据库的集成学习通用框架”。准确的NCIs计算对于第一性原理方法要求很高,对于这些方法,合理的机器学习模型可以成为以最少计算资源获得高精度NCIs值的有效解决方案。因此,本研究通过对量子化学计算得到的非共价相互作用分子的化学性质构建定量构效关系(QSAR)模型,探讨了三种不同类型的集成学习对NCIs校正和预测问题的研究。针对Bagging和Boosting类型,我们选择已有的且具有代表性的集成学习方法,随机森林和梯度提升树构建回归模型。在Stacking类型中,我们首先使用五种不同类型的特征选择方法构建特征子集,用于构建多样性的基学习器,然后将基学习器的输出作为元学习器的输入进行回归建模。根据选择的基学习器的差异,得到同质Stacking(Homo-SE)和异质Stacking(Hete-SE)两种集成模型。考虑到模型性能对基学习器数量和类型的敏感性,我们通过构建多个回归模型对其分析并优化该参数。经过实验分析表明,集成模型在基准数据集上的结果明显优于单一机器学习方法。尤其是Hete-SE方法,在所有方法中表现最好。最后,根据实验结果总结设计出一种针对非共价相互作用数据库的通用集成学习框架。(3)为了进一步提高非共价相互作用的预测精度和减少人为干预的特征选择,首次提出了“融合策略的3D-CNN深度学习框架DeepNCI”并开发了DeepNCI工具包。DeepNCI以分子的电子密度和传统量子化学计算的化学性质作为输入,分别通过多层卷积神经网络和普通神经网络进行特征抽象,避免了人工干预的特征选择。对输出的两种抽象特征进行融合输入到全连接的神经网络层用于最终NCIs的预测。我们在基准数据集上对DeepNCI进行了测试,实验结果表明DeepNCI方法优于现有最优方法。通过对原始特征和抽象特征T-SNE可视化对比,显示出DeepNCI网络可以检测到非共价相互作用相似样本的相似特征和不同样本的判别性特征,即卷积神经网络可以在一定程度上捕获与非共价相互作用相关的特征。具有电子密度输入的深度神经网络结构突破了大分子预测NCIs的泛化极限,为外推分子系统获得合理的NCIs提供了可能。此外,为进一步的应用程序定义了DeepNCI模型的适用性领域,并且判断了基准数据库中所有测试样本都属于应用程序领域。为了测试DeepNCI的可迁移性,使用迁移学习方法将DeepNCI框架应用于只包含几十个样本的均裂能小数据库上。利用均裂能与非共价相互作用问题的性质一致性,迁移学习方法很容易应用于DeepNCI框架。实验结果显示,采用迁移学习训练的DeepNCI模型实现了与其他方法相当的预测能力,验证了该模型的可迁移性。