基于XLNet与GAT的学者论文引用量预测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jay2722927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于科技的快速发展,科学研究的多个领域取得了重大突破,学者们将他们的研究成果撰写成论文,为其后学者提供了理论支持和技术保障。论文引用量显示了一个学者在其研究领域的影响力,对学者论文引用量进行预测不仅可以帮助研究人员快速识别本领域有影响力的学者,而且有助于科研管理部门和基金资助机构了解学科发展趋势,确定资助领域和课题,更好地进行资源分配。同时,互联网时代的到来使得论文的电子化变得更加普遍,这也使得我们可以通过爬虫抓取的方式获取到学者近几年发表的论文和历史的论文引用量来进行学者论文引用量预测研究。目前,国内外对于学者论文引用量预测进行的相关研究主要分为基于统计学的分析方法、基于机器学习的方法和基于图模型的方法。基于统计学和基于机器学习的方法无法充分利用学者论文的合著和引用关系,而是单纯的把每个学者作为一个孤立的个体。然而,学者论文的合著和引用关系对于预测学者论文引用量是非常有帮助的,因为著名的学者之间通常存在合著关系;而基于图模型的方法只是单纯的利用了论文关系图,并没有结合自然语言处理技术对论文的文本内容进行特征提取,从而导致无法充分表现出学者的研究领域和研究内容,但这是预测学者论文引用量的一个重要特征,因为活跃在近几年较热门的研究领域的学者其论文引用量通常更高。近年来兴起的图神经网络是刻画图关系的一种有效的算法,在构造邻接矩阵之后,图神经网络能利用邻接矩阵来传播节点之间的特征,以此来完成图上的半监督学习。另一方面,由于论文标题属于文本,提取文本特征需要使用自然语言处理相关技术。近年来,预训练模型包括BERT、ELMo、GPT系列及XLNet等在自然语言处理相关任务上取得了突破性的进展,其中,XLNet作为一种自回归语言模型克服了自编码模型的缺点,又解决了其他自编码模型无法获取上下文的不足,在自然语言领域多项任务上取得了非常不错的效果。本文尝试使用XLNet进行论文标题特征提取,并拼接学者历史信息作为学者的特征,用于图神经网络训练。本文充分研究了国内外学者论文引用量预测的相关工作,分析总结了国内外研究现状存在的不足,针对学者论文引用量任务本身的特点,提出了基于预训练模型XLNet与图注意力网络GAT的学者论文引用量预测算法XLNet_GAT以及基于分词和分字多特征融合的Word Char_XLNet_GAT改进算法、基于自注意力机制的Self_Att_XLNet_GAT改进算法、基于分词分字多特征融合和自注意力机制的WC_Att_XLNet_GAT改进算法。本文的主要工作包括如下三点:(1)分析了百度学术论文概要页面的构成,使用爬虫抓取了人工智能领域近五年的中文论文概要,包括论文的作者列表、论文的标题、论文引用情况,通过整理制作成本文研究的实验语料。(2)分析了国内外学者论文引用量预测现存方法的不足,提出了结合预训练模型XLNet和图注意力网络GAT的学者论文引用量预测算法XLNet_GAT。该方法通过论文合著和引用情况构造出有向图作为邻接矩阵,结合XLNet进行论文标题文本特征提取,实验证明,在测试集上XLNet_GAT算法比XLNet_Bi LSTM算法的RMSE降低了大约10.8%,R2_Score提高了13%。(3)本文在XLNet_GAT的基础上融合了分词和分字级别的XLNet特征,提出基于分词和分字多特征融合的Word_Char_XLNet_GAT改进算法。同时,使用了自注意力机制对同一学者的多篇论文标题XLNet特征进行融合,提出了基于自注意力机制的Self_Att_XLNet_GAT改进算法。最后,我们把Word_Char_XLNet_GAT改进算法和Self_Att_XLNet_GAT改进算法的优点进行结合,提出了基于分词分字多特征融合和自注意力机制的WC_Att_XLNet_GAT改进算法。并通过消融实验证明了改进的三种算法预测的有效性。
其他文献
空间自成像效应是一种近场衍射的结果,即当平面波透过周期性的光栅传播时,在离光栅特定距离的位置上,会有与光栅相同的图案出现。为了纪念其发现者H.F.Talbot,空间自成像效应也被称为Talbot效应。后来,根据时空对偶性,T.Jannson发现在时域上也存在着相应的Talbot效应。将周期性的光脉冲序列通过色散器件传输,根据一阶色散量与光脉冲序列周期之间的关系,时域Talbot效应可以分为整数阶和
时间序列数据是在固定的时间段内收集到各个时间点的数据,通过预测时间序列数据集,对研究事物的历史轨迹以及对描绘事物将来的发展趋势和动态规划都有重要的意义,为更好的实现控制和精准的做出决策提供基础依据。而时间序列数据具有长依赖性,因此合理有效的预测网络模型选择将会对预测结果产生很大影响,且时间序列数据在采集过程中容易受到序列噪声干扰,需要在预测过程中对序列噪声进行处理和对预测误差进行补偿。为此本文主要
学位
学位
颅内出血(Intracranial Hemorrhage,ICH)是指颅骨内部的出血,是一种病情重、病残率和病死率高的脑部重症疾病,需要快速且准确的诊断,确定颅内出血的位置和出血亚型,提高患者的生存率。颅脑计算机断层扫描(CT)成像精度高且使用广泛,是初步诊断颅内出血的首选方案。经验丰富的放射科医生会通过调阅患者的颅脑CT影像,诊断颅内出血及出血亚型等病症,但放射科医生诊断颅内出血非常耗时,而且医
随着经济的高速增长,化石能源枯竭和环境污染问题接踵而至,可再生能源发展与环境保护已成为全世界公认的生存准则。其中,利用清洁无污染的太阳能与高效节能的热泵技术结合的太阳能热泵热水系统已逐步成为能源研究的热点。我国太阳能热泵热水技术的发展尚处于初步阶段,如何进一步实现节能降耗和保证稳定热水供应将是下一步理论研究的重点。为此,本文针对太阳能热泵系统的参数匹配和调度优化问题做了以下工作:(1)对系统设计参
氨(Ammonia,NH3)是现代社会最重要的化学产品之一,对工业、农业的正常运转至关重要。目前工业上使用最多的合成氨的方法是哈伯法(Haber-Bosch),该方法技术成熟,但该生产过程伴随着大量化石能源的消耗与污染物的排放,亟需将氨的生产过程绿色化。光催化和电催化技术收到了极大重视,可以直接从水和氮气(Nitrogen,N2)合成氨,没有污染物排放,能源和原材料都是没有污染的,被认为是理想的生
乳腺癌具有较高的发病率以及死亡率,是女性最常见的肿瘤疾病。目前,乳腺癌的诊疗模式已经逐步转化为具有针对性的个体化治疗方案。而乳腺癌病理信息中的Ki-67表达水平、分子分型及组织学分级等信息可为患者提供预后信息,这些指标有助于治疗计划的制定,预测患者的诊治疗效。在乳腺癌诊断治疗前需要进行医学影像检查,多参数磁共振成像包括多种成像技术,根据多种影像综合分析可以对癌症提供充足的信息,在乳腺癌诊疗中发挥重
电力推进系统作为船舶系统中的核心动力装备,其控制性能受海况变化的影响较大。为实现电力推进系统的有效控制,需要及时有效地辨识船舶所处海况,并针对不同的海况环境采取适当的控制方法。本文针对当前海况辨识和电力推进系统控制方法中存在的未考虑输入特征间存在的强相关性、控制模型自适应能力弱等问题,基于极大似然证据推理(MAKER)规则和证据推理(ER)规则,分别开展智能海况辨识和不同海况下电力推进系统控制方法
在研究马尔科夫跳变随机系统的相关控制问题时,执行器故障、外界干扰与时滞的存在都有可能造成系统的模态信息在传输过程中的流失,不完全的系统模态信息的传输会导致控制器甚至执行器的模态与系统的模态异步运行。本论文中讨论的系统与控制器甚至执行器之间的模态异步现象用隐马尔科夫模型来进行描述。同时,在实际控制系统中,系统组件之间(如传感器、控制器、执行器之间)的信息交互与传输往往是通过网络来实现的,因此系统发生