基于图自编码器的刊文网络研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dlf123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术使得学术论文的传播和获取更加便捷,但同时也带来了信息过载,让科研工作者难以在海量的期刊论文中有效挖掘出所需信息。因此借助人工智能技术进行文献挖掘与分析逐渐成为研究的热点。现有的论文推荐、期刊推荐等方法大多是利用论文的摘要、期刊名等某一种特征信息,往往忽略了论文、期刊和作者的之间丰富的关系,导致推荐的结果差强人意。基于此,本文把论文、期刊和作者的关系抽象成一个异质的网络结构,即刊文网络,然后使用网络相关的方法进行研究,以挖掘出更多的信息。近年来研究者们提出了很多网络研究方法,其中图嵌入方法获得了很多关注,其主要思想是将网络中的所有节点一一映射到向量空间里,同时保留节点之间的结构关系。这种图嵌入技术可以分为三类:基于矩阵分解的思想、基于随机游走的思想和基于深度学习的思想。早期这些方法大多是基于同质图,即只包含一种类型节点的网络。而刊文网络这类异质信息网络比同质图蕴含更复杂的节点类型、连边类型等结构信息和语义信息,不能直接应用同质图中的方法。并且对于刊文网络来说,矩阵分解的方法难以应对网络节点数量庞大的情况,随机游走的方法难以捕获不同类型节点的交互关系,而直接使用深度学习中的很多方法会忽略节点的类型信息。基于上述内容,本文提出了一个针对刊文网络的节点表示模型,以更好地实现在期刊推荐等多项下游任务。具体而言,本文所做的工作可以分为两部分内容:1.构建了基于图自编码器刊文网络的节点表示模型HGAE首先,从Pubmed公开的所有论文数据集中筛选和抽取了一部分数据,构建了一个生物医学相关的刊文网络。接着,针对所构建的刊文网络,提出了一个基于异构图自编码器的刊文网络节点表示模型HGAE。在HGAE中,通过将异构网络分解成不同的子网后编码,再将不同子图特征进行整合并进行解码,最大化地利用了网络中蕴藏的不同语义信息,从而得到刊文网络的节点表示。最后将提出的HGAE方法在公开的Aminer数据集和Pubmed数据集上训练,并得到两个网络的节点表示。将节点表示进行可视化后发现,作者、期刊、论文三种类型的节点嵌入均具有较好的聚类效果。2.HGAE节点表示模型结果在多项下游任务中的应用为了进一步研究HGAE模型所得到的节点表示的适用性,将其应用于合作作者预测、引文预测、期刊推荐、作者节点分类等多项下游任务中,并与GAT、Graph SAGE等5种最新网络学习方法进行了对比。实验结果验证了本文提出的HGAE方法具有较好的表现能力。在作者合作预测和引文预测两种链路预测任务上,HGAE方法在Aminer2012数据集上综合评价指标AUC值比Het Gnn方法高了2.2%—5.1%。在期刊推荐任务上F1值比Het Gnn方法高了10.1%。在分类问题上有0.9以上的准确率。另外本文也分析了子图融合方式和节点嵌入长度对结果的影响。实验发现拼接的子图融合方法表现更稳定,并且随着嵌入维度的增大,预测效果开始时会相应提高,但是达到一定程度后进一步增加嵌入维度反而会削弱算法性能。总结起来,本文的主要工作是针对异构的刊文网络,构建了基于图自编码器的节点表示模型HGAE,并在合作作者预测、引文预测、期刊推荐、作者节点分类等多项下游任务中充分展现了良好的表现能力。
其他文献
毫无疑问,在斜拉桥领域,中国是最先进的国家之一。在过去的70年里,中国已经修建了20多座主跨从600米到1088米的大跨度斜拉桥,全国已经设计了数百座这样的桥梁,它们通常用于中大跨度的桥梁。由于这种类型的桥梁高效易行、造价相对经济、施工速度快、外观优美,斜拉桥成为最令人向往的桥梁系统之一。当拉索失效(断裂)时,拉索断裂可能会将威胁转化为灾难,因为拉索处于失效情况下,存在发生连续倒塌的风险,这对斜拉
目的:本文运用循证医学的方法分析IA期宫颈腺癌行宫颈锥切术对比子宫切除术的复发率、生存率,宫颈锥切术的病灶残留情况及妊娠结局等,评估宫颈锥切术的安全性及其保留生育能力的有效性,为希望保留生育能力的早期宫颈腺癌患者的治疗方案选择提供临床依据。方法:通过计算机检索1995年1月至2020年12月发表的IA期宫颈腺癌相关文献,检索Pubmed、Medline、Cochrane Library、Embas
玉米黄呆蓟马Anaphothrips obscurus(Müller)是缨翅目Thysanoptera蓟马科Thripidae蓟马亚科Thripinae呆蓟马属的物种,在世界范围内广泛分布。该虫在谷类作物上取食繁殖,是中国玉米上的主要害虫之一,会导致植物叶片出现银斑、变形等症状,造成经济损失。本研究采用了来自3个国家(中国、加拿大、印度)共16个省份的玉米黄呆蓟马,搜集并提取了共151条玉米黄呆蓟
神经内分泌肿瘤(Neuroendocrine Neoplasm,NENs)是一种相对罕见且高度异质的肿瘤。虽然对其生物学行为及临床诊治的探索已逾百年,但对其发病机制尚不十分明确。而且NENs的症状和体征不典型临床表现多样,所以大部分N ENs患者发现均在晚期,诊断时已局部扩散和远处转移丧失了根治的机会。在神经内分泌肿瘤的辅助病理学检查中CgA是最常用最有效的肿瘤标志物,用于指导治疗、评估疗效。当血
目的:本实验通过对睡眠呼吸障碍(Sleep-disordered breathing,SDB)儿童行睡眠血氧饱和度监测、血清25(OH)D含量检测及Conners’简明症状问卷调查,分析SDB儿童睡眠血氧饱和度降低严重程度与血清25(OH)D含量之间的关系,研究SDB儿童睡眠中血氧饱和度降低与行为问题风险的相关性,旨在为儿童SDB和注意力缺陷多动障碍(Attention deficit and h
目的:乳腺疾病患者乳头溢液的出现具有指标性意义,可因乳腺的良性疾病,也可是乳腺导管发生了癌变而表现出最早的临床症状。为了解决目前临床上没有对以乳头溢液为主诉的就诊患者针对性的检测手段来进行评估乳腺疾病的良恶性,提高检测的特异性,以减少对患者非必要进行的乳腺切除手术。我们设计了一个基于表面增强拉曼光谱技术的新型靶向拉曼探针技术应用于临床就诊患者,体外检测乳头溢液中癌胚抗原(Carcinoembryo
研究目的:收集宫颈粘液腺癌患者临床资料,回顾性分析患者的临床表现、辅助检查、病理结果和治疗方案,探讨该病的预后影响因素,以期加深临床医师对该病的认识,为诊疗过程提供参考。研究方法:收集2010年1月~2020年10月吉林大学第二医院手术标本病理检查确诊为宫颈粘液腺癌的病例资料共39例进行回顾性分析,分析患者临床表现、辅助检查、病理结果、治疗方法、预后影响因素。采用SPSS23.0软件对统计数据进行
目的:采用Meta分析的方法综合评价近十年我国女性卵巢早衰发病的危险因素,并得出各因素相关强度,为卵巢早衰的预防提供相关线索。方法:通过计算机检索Pubmed、Web of science、Embase、Cochrane Library、中国知网数据库(CNKI)、中国生物医学文献数据库(CBM)等数据库,收集2011年1月至2020年12月已发表的研究内容为中国女性卵巢早衰发病的危险因素、研究类
背景:宫颈癌是发生在宫颈上皮的一系列临床确定病变的终末期,其演变进展与子宫颈上皮内瘤变密切相关。宫颈上皮内瘤变尤其是高级别上皮内病变的诊治对于控制病情发展、预防宫颈癌发生意义重大。目前,相关指南均推荐子宫颈锥形切除术作为治疗HSIL首选术式。锥切术在一定程度上可以起到SIL病灶切除和HPV病毒清除的作用,但即使治疗后,依然有10%-53%的女性表现为疾病持续或复发,远期发展为宫颈癌的风险也比正常人
转录组和甲基化组基因序列是受遗传信息和环境因素影响的基因组数据的两个主要来源,已被广泛用作疾病诊断和预后的生物标志物。现如今,转录组和甲基化组分析技术可以检测到人类基因组中数千万甚至上百万条基因的状态,但受样本数量的限制,“大P小N”的模式使得转录组数据难以应用流行的分类模型。传统的机器学习方法,主要是依赖于特征选择的能力,而深度学习模型需要大量的数据,迁移学习的方法大部分被应用于图像数据。针对这