基于TRANSFORMER和胶囊网络的图分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:cherrychenghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据在生物、化学信息学等领域有许多关键应用,如分子属性判断,新药发现等。图这种数据结构还可以用来表示关系型数据,比如社交网络、知识图谱等。图结构数据因为其强大的表示能力,受到越来越多研究人员的重视,使用图神经网络(Graph Neural Networks,GNN)从图数据中学习到的高质量的节点嵌入和图嵌入被广泛应用于图数据分析中,例如节点分类、连接预测以及图分类等问题。将CNN的卷积原理应用到图数据上形成的图卷积网络是GNN中的一类重要方法。图神经网络是通过建模节点之间的拓扑结构从而聚合节点特征信息来学习节点表示或图表示。然而,传统的GNN使用标量作为神经元的输出,这存在表示能力不足的问题,仅仅使用标量不能保存特征之间的空间关系,而且,GNN普遍在卷积层间添加池化操作,池化操作会丢弃很多节点信息,被丢弃的节点信息不能传递到下一层卷积层,从而导致学习到的是次优图表示。而且,重复平均会产生过多的噪声,并且使得不同类别节点的特征过度混合,从而导致过度平滑问题。本文梳理了深度学习、Transformer和胶囊网络的发展历史,进而引出近年来相关的图分类的模型。本文详细介绍了图神经网络、Transformer和胶囊网络的概念和原理机制,并针对相关模型的弊端作出改进。受Hinton提出的胶囊概念的启发,本文提出了一种新的图分类框架Caps Trans,它充分利用了图神经网络、Transformer和胶囊网络的优点。具体来说,本文首先利用加入了残差连接的GCN为每个节点生成多个胶囊,从多个角度获取局部结构信息,其中GCN的卷积核中加入来区分自连接节点和其他节点,将每个节点的所有胶囊拼接为节点特征,并对得到的特征先使用Graph Norm对其进行归一化,然后,利用Transformer获取图的全局结构信息以及节点之间的语义信息,并根据胶囊形式对得到的节点特征进行拆分,得到原始胶囊;其次,本文利用动态路由机制通过为每个图生成多个嵌入来捕获图级的重要信息和属性,并利用注意力机制来关注重要特征;最后,再次对胶囊特征使用动态路由,得到分类胶囊,对其进行分类。本文提出两种改进,第一是引入Transformer可以获取图的全局结构信息以及节点之间的语义信息;第二是使用Graph Norm对GCN的节点特征归一化。本文使用六个生物信息和社会网络上的图数据集对该框架进行了评估,并证明Caps Trans在图分类任务上优于其他SOTA技术。
其他文献
淀粉Ghost是淀粉糊化后残留在淀粉糊(Gelatinized Starch Dispersions,GSD)中的不溶性空心囊结构,因其形似“ghost”而得名。深入了解淀粉Ghost的组成、结构与性质有利于把握GSD的整体功能性质,精准化生产含Ghost产品。目前关于淀粉Ghost的组成结构与性质的研究已有不少,但缺乏对影响淀粉Ghost结构与性质因素的系统性研究。本论文分别从内部因素(淀粉种类
学位
桑椹花色苷作为颜色鲜艳且无副作用的天然色素,具有多种生物活性。本文以桑椹花色苷为研究对象,分别利用分子辅色技术和微胶囊化技术提高桑椹花色苷的稳定性,并探究分子辅色反应的机理,从而拓宽其在食品、化妆品和生物医药等领域的应用。首先选取了七种不同化学结构的酚酸、酚醛(对羟基苯甲酸、原儿茶酸、没食子酸、阿魏酸、咖啡酸、香草酸、香草醛)与桑椹花色苷进行辅色作用。分析辅色反应前后的紫外扫描光谱变化,比较辅色剂
学位
下呼吸道感染(Lower respiratory tract infection,LRTI)是一种严重危害人类健康的感染性疾病。LRTI危重病情多由细菌引发,且病原谱广泛,因而临床上迫切需要一个全面的检测组以实现LRTI细菌的快速、准确诊断。基于此,本论文发展了一种基于液滴编码-配对的微流控多重数字化环介导等温扩增(Loop-mediated isothermal amplification,LA
学位
当前,逐渐增强的细菌耐药性已成为全球性的公共健康问题。耐药性细菌感染不仅会延长治疗周期和增加治疗花费,还会显著增加病死率。造成细菌耐药性增强的一个重要原因是抗生素滥用,因此合理使用抗生素成为了一个迫在眉睫的问题。临床工作中通过抗生素敏感性测试(Antimicrobial Susceptibility Testing,AST)来指导抗生素的选择。但是,常规AST方法普遍存在测试时间较长的问题,难以满
学位
锥栗是我国的经济林树种之一,其果实营养丰富,深受大众喜爱。本文选取了两个具有代表性的锥栗品种“金锥(YS)”和“白岩一号(WS)”,探究锥栗果仁发育过程(S1、S2、S3和S4时期)中淀粉和微量营养素(维生素E、类胡萝卜素和多酚)的代谢变化规律。另外,考虑到新鲜锥栗不耐储藏的特性,本文进一步探究了水煮和烤制两种热加工处理方式对成熟锥栗果仁中淀粉和微量营养素的影响规律。研究结果如下:(1)探讨了锥栗
学位
随着下一代测序技术的发展,单细胞RNA测序(scRNA-seq)已成为揭示细胞间广泛异质性不可或缺的工具。聚类是揭示单细胞转录组谱的一项基本任务,也是受到广泛关注的关键计算问题。最近,针对scRNA-seq数据研究者们开发了许多聚类算法,其中包含一些结合数据降维和深度学习的聚类方法。然而,由于scRNA-seq数据低维潜在空间的特征表示不稳定,与降维相结合的深度学习聚类方法仍然不能产生稳健的聚类效
学位
会话中的情感识别在意见挖掘,人力资源,医疗保健等不同的领域逐渐得到了广泛的应用,对于许多人工智能相关的应用来说,是不可或缺的一部分。通过分析会话中的文本识别出会话中每一句话语的情感,依据不同的情感状态做出适当的反馈,可以让机器智能来帮助人类更好的进行工作,对于各领域的信息化发展与智能化发展有着深远的影响和积极意义。虽然目前的会话情感识别方法已经取得极佳的效果,然而,现有的方法无法很好的整合文本情感
学位
根因定位是网络故障管理中的关键过程,旨在从一系列观察到的故障现象中推断出根因的确切来源。解决根因定位的现有方法有些基于逻辑规则,有些基于机器学习。然而,随着通信网络变得更加复杂,知识驱动的基于逻辑规则的方法面临着效率低下和缺乏灵活性的问题。数据驱动的机器学习方法则由于依赖大规模训练集和缺乏可解释性,并未被业界广泛接受。本文尝试将根因定位中知识驱动的方法与数据驱动的方法结合——同时利用两种方法的优势
学位
面粉作为小麦的主要产物,因其良好的加工性能,成为我国主要的主食品种。但是,我国目前生产的面粉主要以中低筋面粉为主,随着人们生活水平的提升以及对食物健康的愈加关注,高品质的面制品逐渐被大众所青睐。添加改良剂成为一种重要的加工方法。聚3-羟基丁酸酯(PHB)是存在于微生物体内的天然产物,其降解产物3-羟基丁酸(3HB)具有多种生理功能。PHB具有与面粉乳化剂类似的两亲性结构,初步试验发现其能改善面粉粉
学位
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的
学位