基于机器学习的非共价相互作用计算精度研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:fstjqx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非共价相互作用(Non-covalent Interactions,NCIs)又称弱相互作用,这些弱相互作用几乎无处不在,并且在环境、化学、材料以及生命等多个学科领域的研究中扮演着极为重要的角色。非共价键是与共价键相对而言的,不同之处在于其形成过程中不存在电子的共用,但包含了不同属性的、复杂的相互作用,常见的如氢键、范德华力、色散力、π-π相互作用以及卤键等。NCIs涉及到广泛的、与不同尺度分子体系有关的实验现象,特别是对于存在着大量NCIs的大分子体系的研究非常重要。因此,研究非共价相互作用,对环境污染的预防和治理、超分子化学的研究、分子的识别和组装、材料的光电性及导电性和生物大分子稳定性和识别过程等方面具有重要的理论和现实意义。由于NCIs的复杂本质,我们对NCIs认识还相当有限,对精准的NCIs的实验和理论研究工具的需求依然迫切。目前,获得非共价相互作用的方法有实验方法和理论计算方法。实验方法包括红外光谱法,核磁共振法等。通常实验方法准确度较高,但都需要精密昂贵的实验仪器,复杂的实验过程和较多的人力资源,对于大分子来说不易操作。理论计算方法中较为准确地计算方法是基于第一性原理的量子化学计算方法,它包括从头计算、密度泛函理论、微扰理论等。理论计算方法与实验相比,可以大幅节省时间和资源,但目前要达到准确计算的花费也是非常昂贵的,尤其对于大分子来说。近年来,人工智能的再次兴起,为理论化学计算方法的提高和改进提供了新途径,从而为解决非共价相互作用理论计算中难度比较大的问题提出相对简单、高效的新方案。本文针对非共价相互作用的量子化学方法计算精度的提高和预测模型进行了研究,主要成果如下:(1)提出了一种针对小型化学分子数据库的“基于相关性和差异性混合距离的数据集划分方法(HSPXY)”。数据集划分方法的使用,对于基于规模较小数据库建立的模型性能影响很大。数据集划分方法主要分为两类:基于聚类和基于统一分布的方法。通常情况下,基于统一分布的数据集划分方法简单易用,但不考虑样本之间的相关性。因此,有可能不能正确地分配距离较远但相关性很大的样本。在常用的联合x-y距离的数据划分方法(SPXY)的差异距离基础上,充分考虑选取的数据集中样本之间相关性对模型构建的影响,本文提出了一种改进的基于相关性和差异性混合距离的数据集划分方法HSPXY。为了验证其有效性,该方法在小型化学数据库上与一些现有的经典数据划分方法进行比较,使用偏最小二乘方法建立回归模型。与其他同类划分方法相比,基于HSPXY数据划分方法选取了最具有代表性的训练集,构建的回归模型获得了更小的均方根误差和更高的相关系数。这表明该方法为获得具有代表性的训练集提供了一个新的思路。(2)提出了一种“基于非共价相互作用数据库的集成学习通用框架”。准确的NCIs计算对于第一性原理方法要求很高,对于这些方法,合理的机器学习模型可以成为以最少计算资源获得高精度NCIs值的有效解决方案。因此,本研究通过对量子化学计算得到的非共价相互作用分子的化学性质构建定量构效关系(QSAR)模型,探讨了三种不同类型的集成学习对NCIs校正和预测问题的研究。针对Bagging和Boosting类型,我们选择已有的且具有代表性的集成学习方法,随机森林和梯度提升树构建回归模型。在Stacking类型中,我们首先使用五种不同类型的特征选择方法构建特征子集,用于构建多样性的基学习器,然后将基学习器的输出作为元学习器的输入进行回归建模。根据选择的基学习器的差异,得到同质Stacking(Homo-SE)和异质Stacking(Hete-SE)两种集成模型。考虑到模型性能对基学习器数量和类型的敏感性,我们通过构建多个回归模型对其分析并优化该参数。经过实验分析表明,集成模型在基准数据集上的结果明显优于单一机器学习方法。尤其是Hete-SE方法,在所有方法中表现最好。最后,根据实验结果总结设计出一种针对非共价相互作用数据库的通用集成学习框架。(3)为了进一步提高非共价相互作用的预测精度和减少人为干预的特征选择,首次提出了“融合策略的3D-CNN深度学习框架DeepNCI”并开发了DeepNCI工具包。DeepNCI以分子的电子密度和传统量子化学计算的化学性质作为输入,分别通过多层卷积神经网络和普通神经网络进行特征抽象,避免了人工干预的特征选择。对输出的两种抽象特征进行融合输入到全连接的神经网络层用于最终NCIs的预测。我们在基准数据集上对DeepNCI进行了测试,实验结果表明DeepNCI方法优于现有最优方法。通过对原始特征和抽象特征T-SNE可视化对比,显示出DeepNCI网络可以检测到非共价相互作用相似样本的相似特征和不同样本的判别性特征,即卷积神经网络可以在一定程度上捕获与非共价相互作用相关的特征。具有电子密度输入的深度神经网络结构突破了大分子预测NCIs的泛化极限,为外推分子系统获得合理的NCIs提供了可能。此外,为进一步的应用程序定义了DeepNCI模型的适用性领域,并且判断了基准数据库中所有测试样本都属于应用程序领域。为了测试DeepNCI的可迁移性,使用迁移学习方法将DeepNCI框架应用于只包含几十个样本的均裂能小数据库上。利用均裂能与非共价相互作用问题的性质一致性,迁移学习方法很容易应用于DeepNCI框架。实验结果显示,采用迁移学习训练的DeepNCI模型实现了与其他方法相当的预测能力,验证了该模型的可迁移性。
其他文献
目的观察益气活血通络汤联合中药浴足方治疗气虚血瘀型糖尿病周围神经病变(diabetic peripheral neuropathy,DPN)患者的临床疗效。方法选取80例2018年9月至2019年9月于重医附
目的:本研究旨在通过观察、比较在椎板关节突螺钉内固定下选取小牛骨融合器与PEAK融合器两种不同融合材料手术治疗的患者在12个月后复查结果,选取出内固定配合融合器手术方式
近些年资本市场上越来越多的上市公司开始多元化战略发展以分散企业单一化经营风险。但由于并购重组中高溢价以及信息不对称等因素,交易双方为确保交易的公允性,保护投资者利
随着高铁事业飞速发展,西部山区铁路桥也在加快建设中。高墩连续刚构桥受到广泛应用,为了适应山区特殊地形,桥墩高度和主跨跨度在不断加大,分析结构的静力特性和动力特性很有
中华人民共和国成立初期,中国共产党在全国范围内建立起电影放映队。通过电影放映队,中国共产党既宣传了国家的路线、方针、政策,实现了各项政治运动的有效动员;又丰富了群众的娱乐生活,传播了文化知识,进而实现对乡村社会的文化改造。既往研究有关放映队的放映体制、放映过程及放映效果论述不足,本文将以上海市为例,从电影放映队的建立出发,探讨放映队在扩大、发展中存在的问题及其原因,展现政府整顿放映队伍,完善放映制
房地产投资信托基金(简称REITs)作为房地产的新型融资方式,在欧美等国家已经有很长的历史,REITs市场已经发展得非常成熟,亚洲地区也在加快REITs市场的发展步伐。我国的REITs
目的:用简单易行的超声测量法探究冠心病患者心脏收缩、舒张、整体功能的诊断性能及冠脉病变支数与以上指标的相关性。方法:选择2018年12月至2019年12月我院心血管内科收治13
派驻纪检监察组是纪委监委的重要组成部分,派驻纪检监察组履行好监督职责是深化全面从严治党的必然要求,是确保驻在单位和部门贯彻落实中央和地方决策部署的重要保障。2004年以来,中央纪委、监察部正式对派驻机构实施统一管理。近年来,在深化全面从严治党和监察体制改革的大背景下,我国党和国家纪检监察派驻制度全面深入改革,并在实践中不断探索,取得了明显成效。江西省纪委监委积极适应全覆盖改革要求,把派驻工作纳入全
为降低企业负担,助推企业发展,国务院出台《降低社会保险费率综合方案》,明确自2019年5月1日起在全国范围内大规模实施社会保险降率减费政策,内容包括降低城镇职工基本养老保
“顿时”是中高级水平的外国学生应该掌握的短时时间副词,目前“顿时”在中文教学领域仍具有研究的价值和空间。本文运用三个平面理论,以语料库为基础,以中文教学为目的,考察了“顿时”在语义、句法和语用三方面的特点,深入研究了“顿时”的使用条件,并对“顿时”与同义词“马上”、“立刻”和“一下子”进行了多角度的辨析,然后对外国学生使用“顿时”一词所呈现的偏误类型进行了归纳和整理,并仔细分析了偏误可能产生的诸多