基于图神经网络的半监督文本分类算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:liongliong539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的普及加速了信息的传播效率,而网络中的信息大多以文本的形式存在。作为自然语言处理的基础任务之一,文本分类被广泛应用于新闻分类、搜索匹配、信息过滤及情感分析等领域。文本分类依然存在以下难题:一方面,当标签数据稀少时,基于有监督的机器学习或神经网络分类模型无法获得充分训练;另一方面,文本比较简短时,单词上下文稀疏,语义信息缺失。针对以上问题,本文重点研究基于图神经网络的半监督文本分类算法。图神经网络具有其良好的半监督特性及全局信息捕获能力。本文将基于图神经网络开展直推式与归纳式半监督文本分类算法研究。其中,直推式半监督学习能充分利用所有未标记数据,归纳式半监督学习能对新文本进行实时分类。本文主要贡献如下:(1)基于图卷积网络的自训练半监督文本分类算法针对如何在少量标签数据下便捷地提高模型的文本分类性能这一问题,本文研究了基于图卷积网络的直推式半监督文本分类算法。首先,算法将整个文本语料构建为包含单词与文档两类节点的图结构,充分利用了所有未标记数据的语义信息。然后,算法计算每个单词的歧义程度作为单词的置信度,单词置信度被加入图的边权重计算中,削弱了歧义词的边权重,从而减小了歧义词的影响。最后,一些高置信度的单词作为文本中的关键词被自动标记为伪标签节点加入训练集中,这些标签信息会随着图卷积运算在图上进行传播,提高了分类性能。实验结果表明,相较于现有文本分类模型,本文算法的分类准确率在各数据集上均获得了提升。(2)基于图注意力网络的句子级半监督文本分类算法针对(1)中将整个文本语料构建为图结构进行文本分类存在占用过多内存,以及无法对新文本实时分类的问题,本文研究了基于图注意力网络的归纳式半监督文本分类算法。首先,算法将输入句子与抽样获得的文本一同构建为只包含单词节点的图结构,抽样文本的加入使算法能利用未标记文本来丰富单词上下文信息。然后,算法利用N-gram与语法依赖多角度建立单词之间的关系,扩充了图网络的边。最后,基于多头注意力的消息传播机制自动聚合邻居节点的有效信息。节点信息设置为全局共享,从而支持批训练与新文本实时预测。实验结果显示,算法在多个数据集上达到了现有文本分类模型的最好效果。(3)基于关键词的图神经网络实时文本分类器针对现实中文本分类领域或者标签时常发生变化,从而需要对大量数据进行重新标记这一问题,本文基于上述两个图神经网络算法设计了实时文本分类器,并实验评估分类器的实时分类性能。实验结果表明,分类器只需标记少量单词就可以对新文本实现快速正确的分类,验证了本文提出的分类算法具有良好的应用前景。
其他文献
随着随钻测量技术的高速发展,所需要测量的井下数据越来越多,对信息传输效率要求越来越高。连续波泥浆脉冲发生器相较于传统正脉冲发生器传输效率更快,抗干扰能力更强,在石油工程领域具有良好的应用前景与研究价值。本文基于实际工业应用背景,确定了连续波泥浆脉冲器的转阀驱动电机为永磁同步电机,介绍了表贴式永磁同步电机的矢量控制方式,分析了三种坐标系之间的变换关系,并给出了基于矢量控制策略的系统控制方案。设计了一
模内标签(In Mould Label缩写为IML)是利用热熔化固态粘合剂在制作瓶体时同塑料瓶体表面粘结,并在模内同瓶体结合成一体的特种标签.使用模内标签塑料瓶的最大特点就是标签和瓶体在同一个表面上,感觉没有标签,彩色图纹如同直接印刷在瓶体表面上.rn在化妆品包装制造工艺中,模内标签由于将标签与制造成型工艺结合,存在着输出性能良好、成本低、环保等优点,它的推广代替了贴标机,降低了生产商生产成本,深受市场喜爱.本文我们一起来了解模内标签工艺.
期刊
设备是企业生产的硬件基础,是企业可持续发展的基本条件.如何管好、用好这些设备,使这些设备资源得到合理配置,充分发挥其效能,实现设备的保值增值,为企业创造更多的经济效益,是企业管理中的重要内容之一.企业需要在设备管理方面下功夫,以最低费用优化设备的可用度,提高设备的耐久性,对设备进行综合管理,以确保生产任务的顺利完成,充分发挥设备投入的经济效益.rn对于企业来说,做好下面几件事,你也可以向设备管理要效益!
随着各大音乐网站蓬勃发展,使用音乐APP成为人们生活不可或缺的一部分。为了更好满足用户寻找喜爱的音乐歌曲,利用算法构建音乐推荐系统进行歌曲分发越来越重要。其中,协同过滤算法被广泛应用在各大音乐推荐系统召回过程中。传统的协同过滤算法对用户和音乐的相似度刻画粒度较粗,且推荐召回结果都集中在头部热门,个性化程度较弱。因此,如何利用挖掘用户信息和音乐歌曲信息改善传统的协同过滤算法,进行更有效的推荐召回,提
商品货架上,能第一瞬间抓住消费者眼球的,往往都是色彩鲜亮、形状奇异,乃至满版金光闪闪的标签,尤其是在烟包、高档白酒商标上,体现的更是淋漓尽致.rn货架效应带来的繁复设计rn为了更突出的货架效应,标签设计人员可以说无所不用其极,烫金、满版金、红、紫、蓝……颜色绝对够鲜艳,也足够打眼,自然深受消费者及商家喜爱,于是在标签行业形成了一股风气,就连一些中低档产品也开始趋向追求满版都是亮丽色彩,这也直接导致了竞争商家把色彩饱满、印制精美的标签作为了对标方向.
期刊
局部UV,是印刷品表面整饰技术的一种.因其采用具有较高亮度、透明度和耐磨性的UV光油对印刷图文进行选择性上光而得名.在突出版面主题的同时,也提高了印品表面装潢效果,主要应用于书刊封面和包装产品的印后整饰方面.rn局部UV上光可以根据产品上光的需要,对商标、包装印刷品需要突出的部位进行局部上光涂布,上光图案与周边图案相比显得鲜艳、亮丽、立体感强,能产生独特的艺术效果.
期刊
2021年10月27日,由中国印染行业协会、绍兴市柯桥区人民政府共同主办的“数造新业态 绿色新未来”2021全球纺织品数码喷墨印花柯桥峰会在绍兴柯桥举行,会上,世界纺织信息网(WTiN)数码印花频道主编Joseph Link通过视频形式对2021年全球纺织品印花最新市场情况进行了分析.以下为视频译文:rn大家好,我叫约瑟夫·林克,是世界纺织信息网纺织品数码印花专栏的负责人,数码印花专栏可提供快速发展的数码纺织印花行业的相关数据并对此进行分析.
收缩膜套标签由于可将高质量的图案和与众不同的造型相结合,越来越受到市场的欢迎.收缩膜标签的特点、优势、设计选材原则及制作要点有哪些呢?rn概念与优势rn收缩膜套标签是一种在塑料薄膜或塑料管上进行印刷的薄膜套装标签.它具有如下特点:rn1.收缩膜套标签加工方便,包装密封、防污染,对商品保护性好;rn2.膜套紧贴商品,包装紧凑,并可显示商品造型,因而适用于难以包装的不规则商品;rn3.收缩膜套标签贴标时,无须使用黏合剂,并可获得与玻璃相同的透明度;rn4.收缩膜套标签能对包装容器提供360°的全方位装饰,并可
航天测控网的资源优化技术在进入21世纪后,一直都是我国致力于发展的技术。近些年内,随着互联网技术飞速发展,伴随的是人工智能技术一个阶梯式的进步,测控技术的智能化提升成为国内研究的主要方向。随着未来空间资源的日益稀缺,如6G技术的实现以及马斯克“星链”计划的提出,加速了人工智能技术与航天测控技术的结合。在繁杂的人工智能技术中,知识图谱技术依靠着强大的数据关联能力和适应力,成功的在各大领域中展露锋芒,
在邮政行业高质量发展的时代要求下,城市末端配送绿色化、平台化、智慧化成为快递企业重要发展方向。同时,互联网经济的快速发展催生出了各式各样的共享经济,共同配送成为快递发展的重要趋势之一,其内涵在于通过整合资源降低成本,提高效率,同时减少环境污染。然而,共同配送企业在实际运营中存在一些问题亟需解决,比如:共同配送模式的选择、共同配送背景下电动车路径规划、共同配送下的定价博弈、以及电动车路径-定价博弈联