【摘 要】
:
药物治疗对于人类的生命健康起着至关重要的作用。而药物研发过程复杂且漫长,需要投入巨大的人力和研发经费,高昂的研发成本最终影响到药物的价格和患者对治疗方案的选择。分子属性预测是新药发现中的一个重要环节,可以辅助研发人员发现候选药物,加快药物研发速度,从而降低研发成本。目前,深度学习技术在药物研发领域中的应用取得了一定的成果,不断地提高分子属性预测的准确性和可靠性成为了科研人员的主要追求。本文主要研究
论文部分内容阅读
药物治疗对于人类的生命健康起着至关重要的作用。而药物研发过程复杂且漫长,需要投入巨大的人力和研发经费,高昂的研发成本最终影响到药物的价格和患者对治疗方案的选择。分子属性预测是新药发现中的一个重要环节,可以辅助研发人员发现候选药物,加快药物研发速度,从而降低研发成本。目前,深度学习技术在药物研发领域中的应用取得了一定的成果,不断地提高分子属性预测的准确性和可靠性成为了科研人员的主要追求。本文主要研究分子属性预测问题。为了缓解有标签化合物数据的数量限制、提取高效的分子表示,本文使用预训练的语言模型从大规模的无标签化合物语料库中学习化合物的知识,然后将学习到的知识迁移到小规模的有标签数据集上。具体地,本文的主要研究工作分为以下两个部分。为了编码分子中的子结构特征,本文提出了基于分子指纹的分子属性预测模型(Fingerprints-BERT,FP-BERT),该模型使用堆叠的Transformer编码器从化合物语料库中学习双向的分子表示。有标签数据集中的每个化合物被表示为一组分子子结构,使用预训练后的FP-BERT模型编码分子指纹中的子结构,在得到学习的分子表示的基础上构建基于卷积神经网络(Convolutional Neural Network,CNN)的预测模型进行有监督学习。为了构建更加全面的分子表示,本文提出了多视角的分子属性预测模型(Multi-View Molecule BERT,MV-Mol BERT),该模型融合了不同分子编码之间的信息。MV-Mol BERT分别从SMILES(Simplified Molecular Input Line Entry Specification)角度和分子指纹角度对每个化合物进行编码,并使用CNN提取高维的特征,之后将两种视图的分子编码进行拼接作为多视角的分子表示。然后,构建神经网络预测模型对分子属性进行有监督的学习。本文在分类数据集(HIV)和回归数据集(ESOL、Free Solv、Lipophilicity、Malaria、CEP)上评估了FP-BERT模型和MV-Mol BERT模型的预测性能。实验结果证明了FP-BERT模型提取分子指纹特征的能力,此外,多视角的预测模型MVMol BERT获得了比FP-BERT模型更优的性能。
其他文献
在软件开发、测试、维护和使用过程中,会有很多软件缺陷被发现。开发者通常使用缺陷追踪系统管理软件缺陷,但由于开发过程高度并行的特点或者在不同的产品中共用相同的组件等原因,相同的缺陷很容易被不同人员多次提交,从而导致缺陷追踪系统中存在大量重复报告,影响后续的缺陷分派与修复,因此研究者们提出多种自动重复缺陷报告检测方法。以往研究将重复缺陷报告检测视为检索或分类任务。检索任务中基于信息检索的重复缺陷报告检
近年来,互联网技术应用在各个行业,软件数量和规模呈现爆发式增长。开发人员在开发程序的过程中由于疏忽或者编程语言的限制,使得其中产生了缺陷即漏洞,从而被恶意攻击者发现并利用。随着软件安全问题的日益突出,研究人员也越来越重视漏洞检测方面的研究。然而由于软件的更新迭代导致软件结构的复杂化,仅仅依靠研究人员进行人工审查已经远远无法满足日益增长的检测需求。随着深度学习技术的广泛应用,基于深度学习的漏洞检测也
人类可以通过视觉、听觉和触摸等多种感官来察觉世界,当人类看见一个物体时,会联想到触碰它时是什么感觉。在本文的工作中,这里建立了视觉和触摸之间的跨模型连接,将视觉信号和触觉信号都以图片信号的形式,通过输入视觉图像输出触觉图像从而达到预测触觉信号的目的。这种跨域建模任务的主要挑战在于两者之间的的规模差异,可以理解为虽然我们的眼睛可以一次感知整个视觉场景,但人类只能在任何特定时刻感受一个物体的一个小区域
手势是一种人类的肢体语言,不仅包含十分丰富的信息而且在人与人之间交流时便捷且自然,因此手势识别逐渐被应用于人机交互领域。手势识别按照手势的分类分为静态手势识别和动态手势识别,由于动态手势可以反映手势的连续变化、表达更加复杂的手势信息,因此动态手势识别具有更加广阔的应用空间。本文对基于计算机视觉和深度学习的动态手势识别方法进行了研究,综合考虑识别速度、识别正确率、应用平台的显卡规格等因素,提出了两种
随着人工智能技术的不断发展,人机交互的需求日益提高。其中,手势识别技术在人机交互领域中的应用很是广泛。手势识别是指利用信号采集设备对个体的手势运动姿态进行采样,传输至计算机,使用模型算法对采样数据进行处理和分析。基于可穿戴传感器的手势识别系统具有便携高效,交互性能良好的优点,在商业方面的前景非常广阔。实际应用场景中,手势识别技术容易受到诸多因素的干扰。包括在环境因素下手势动作前后的无法控制的抖动、
近年来,随着机器人技术和人工智能的发展,智能机器人越来越多应用在生活中。同时,普遍认为相对于单个机器人工作,机器人集群的协同工作效率更高。比如在系统容错性方面,多机器人协同工作的容错率很高,不会因为单独的某个机器人的出错或损坏导致系统整体崩溃,而且利用机器人集群进行协同工作能够完成更为复杂的任务。ROS是目前机器人领域中最受欢迎的开源平台之一,可以有效地将底层机器人硬件封装起来,并提供大量开源工具
随着人工智能、大数据技术的飞速发展,数据资源愈发丰富,而对于数据资源的利用也越来越关键。一些与人类本身相关的医疗数据往往涉及到重大利益,这些数据的拥有方也因此无法随意交换数据,这阻碍了人工智能技术在医疗领域的发展。因此,生物医疗健康领域目前面临着因数据无法共享而产生的数据孤岛问题,针对这一问题,联邦学习成为了解决它的答案。而联邦学习过程中,多方通信节点需要进行数据对齐的过程,然而与人相关的数据在I
图像扫描显微(Image Scanning Microscopy,ISM)成像方法具有高分辨率成像特性,在生物医学领域具有广泛的应用前景。ISM在共焦显微的基础上使用阵列扫描方式实现高分辨率成像,可将分辨率提升至衍射极限的2倍,且实验装置简单、易于实现,成为超分辨显微成像领域的研究热点。但该方法需要采集大量图像,数据处理量大、成像速度慢,受扫描范围和物镜数值孔径的限制,无法满足大视场快速成像需求。
软件漏洞严重性可以帮助测试开发人员合理地分配有限的资源,优先修复更加严重的漏洞。然而,漏洞的发布和严重性的人工评估之间存在时间滞后,可能会导致“零日攻击”问题。因此,利用漏洞描述、源代码等信息自动、及时、准确地预测软件漏洞严重性具有一定的现实意义。现有方法存在以下问题:(1)每个项目的CVE漏洞描述数据量少,且不同项目的漏洞描述语言风格差异较大;(2)忽略了多个CVSS漏洞特征之间的共享信息;(3
随着智能设备的普及和信息技术的迅猛发展,视频已经成为人们生产生活中不可替代的信息载体。为了对抗视频数量的爆炸式增长,理解分析视频内容,并扩展应用到现实场景中,有助于提高人们的生产生活水平。本文针对发生在公园、停车场等公共场所中的危险性行为,设计实现了一个基于深度学习的视频行为动作识别模型,为设置在公园、停车场等公共场所中的监控设备添加自动识别并反馈危险性行为的功能,为监控人员提供一种智能化辅助解决