多通道图卷积文本分类模型研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ogldfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中一个基础且至关重要的任务,在情感分析、舆情监测、新闻过滤等方面有广泛的应用。传统的卷积神经网络、循环神经网络等模型缺乏获取非连续长距离语义信息的能力,而且无法处理文本的语义树、句法树等非线性结构数据,最近提出的图卷积文本分类模型可以较有效地解决上述问题。但现有的图卷积文本分类模型还存在以下不足:(1)现有的单通道空域图卷积模型未能有效地利用文本的语义、句法等隐含信息,限制了模型获取多方位文本信息的能力。(2)现有的情感分类模型缺少学习主题与情感之间关系的能力,而图卷积模型由于便于在具有异构性的网络上学习不同类型节点的信息,有望针对情感分类问题学习词、主题与情感类型之间的关系,进一步提升情感分类的效果。针对上述问题,本文主要研究工作如下:(1)提出了一种多通道空域图卷积文本分类模型。该模型在保留原有词汇图的基础上,基于同一语料库使用余弦相似度构建语义图,使用依存句法分析算法构建句法图,从而从文本中提取到有效的语义、句法信息。基于此提出了简单融合、注意力融合两种特征融合方法,提升模型对文本表示的编码能力。在TextLevelGCN、TextING和MPAD三个最新的空域图卷积模型上测试了我们提出的多通道空域图卷积文本分类模型框架的性能。实验结果表明,多通道空域图卷积文本分类模型性能要优于原始的单通道模型,同时两种特征融合方法在不同类型的数据集上均表现出各自的优势。(2)提出了双通道主题特征解耦的图卷积情感分类模型。借鉴争议检测任务中的DTPC-GCN模型具有学习主题与文本之间关系的能力,并可以对主题相关的特征和主题无关的特征进行解耦来学习帖子的争议性类别。我们针对情感分类问题重构了主题-文本-单词文本图,并将该模型迁移到情感分类任务中(称为DTDW-GCN模型)。具体地,我们利用LDA算法为文本生成主题分布,并结合TF-IDF算法和PMI算法构建了主题-文本-单词文本图。多组对比和消融实验结果表明,DTDW-GCN模型能有效提升情感分类任务的性能。在此基础上,我们进一步引入语义信息,利用词嵌入之间的语义相似度构建主题-文本-单词语义图,将我们的双通道图卷积方法扩展到DTDW-GCN上,实现了多任务学习框架下的双通道文本图模型DCDTDW-GCN。实验结果表明,DCDTDW-GCN模型相比于单通道模型具有明显的性能提升。
其他文献
近年来,随着互联网和多媒体技术的飞速发展,数字信息以图像、视频、文字等形式被广泛传播。多媒体数据易被非法获取和篡改,从而导致严重的信息安全问题,例如版权纠纷、数据泄露等。作为多媒体数据版权保护的一种有效方法,数字水印技术在不影响视觉效果的情况下,将标识信息嵌入到多媒体数据中,从而利用提取的嵌入信息确认版权。本文针对最广泛使用的多媒体数据载体,即图像和视频,研究了不同嵌入规则下的鲁棒盲水印方法,优化
涉案财物管理是刑事诉讼程序中一项十分重要的内容。当前,我国对于涉案财物采用“实物移送,各自管理”的管理模式。这种模式容易出现业务衔接不畅、司法效率过低以及涉案财物被非法侵占等问题,其原因在于公安机关、检察院和法院等涉案财物管理单位之间往往会产生信息孤岛效应,导致信息传递与财物转移失去一致性。本文针对这一问题进行分析,利用区块链技术构建了涉案财物跨部门转移的协同管理过程,重点研究了共识的形成机制。本
四维光场相机被认为是优秀的成像设备,具有广阔的发展前景。其和传统的相机相比,不仅可以记录每个像素的强度,并且可以记录光的方向,提供了丰富的结构信息。通过获取光场中的有效信息,许多基于视觉的应用得以进一步发展,如虚拟现实、重聚焦、三维重建等。而基于光场的三维重建,可以准确地恢复场景的三维结构,所以逐渐成为了国内外研究的热点。本文将基于光场的三维重建分为两个部分进行介绍:在同一个光场中,包含了针对同一
随着目标检测领域的不断发展,人们逐渐发现,标注成本问题成为了限制其发展的重要因素之一。如何使用简单标注的数据集训练出高精度模型成为了亟需解决的问题,针对此问题,研究者们提出了弱监督目标检测算法。虽然人们逐渐攻克了弱监督检测中遇到的一些挑战,但困扰着该领域的两大问题依然未被完全解决。第一个问题是多尺度检测问题。现有的检测方法更倾向于定位和识别尺度变化不大的目标,很难同时检测出较大和较小的目标。多尺度
语法纠错(GEC)一直是自然语言处理的重要研究任务之一,该任务的目的是对文本中的错误语法进行检测并纠正。随着深度学习的发展以及数据的爆炸性增长,翻译模式成为GEC任务的首要选择,序列到序列(seq2seq)模型在GEC任务中得到了广泛应用。相较于英文等字母语言,中文有许多不同的特性。并且,中文GEC任务的相关数据集较少,这限制了seq2seq模型的学习能力。针对以上问题,本文在现有的研究基础之上,
学术界和工业界的信息化和网络化发展如火如荼。各行各业都围绕大数据开展了深刻的变革。其中位置信息在交通运输场景,个人移动场景,企业设备管理的重要性日益凸显。在户外,车辆获取位置信息的通用方案为使用全球导航卫星系统(Global Navigation Satellite System,GNSS)和惯性导航系统(Inertial Navigation System,INS)的组合系统。其中,GNSS是空
本文对体医融合背景下老年人体育锻炼行为特征和效果进行综述,发现通过体育锻炼可以改善老年人的身心健康和提高社会适应能力,并得出如下启示:多元主体参与,构筑"老年人体医融合环境";加强老年体医融合复合型人才的培养,创建老年人体医融合服务团队;加大宣传和健康教育,提高老年人体育锻炼意识;充分利用互联网和大数据等先进技术监测老年人体质和锻炼水平。
期刊
随着计算机技术的发展,数字图像在人们生活中被广泛使用,同时数字图像中潜在的安全问题也日益严峻。篡改的数字图像通过网络等途径的传播会影响人们对于事物的判断,甚至是给经济和社会秩序造成危害。为了能够检测篡改的数字图像,保护信息安全,数字图像取证技术在近些年得到了很大的发展。与此同时,为了探究取证技术的安全性,促进取证理论的完善,数字图像反取证研究也得到了广泛的关注。本文针对数字图像对比度增强反取证这一
三元组抽取能将非结构化的文本以结构化的形式进行表示,是自然语言处理中的一项重要研究内容。对裁判文书进行三元组抽取,对于上游构建知识图谱、建立检索系统、自动问答系统等起着关键的作用,能够帮助司法系统进行知识表达和知识推理,推进智慧司法的建设。裁判文书文本中实体间难以用预定义关系集来限定,且缺乏大规模的标注语料,导致传统通过训练分类器或神经网络模型的实体关系抽取方法不适用。而目前常见的开放式中文三元组
在传统区块链中,所有用户的交易信息都是公开的,存在隐私泄露的风险。随着区块链技术的发展,逐渐增强了区块链的匿名性,但是匿名性的增强带来了难以审计和监管追责的问题。与此同时,随着区块链越来越广泛的应用,使其在信息监管、隐私保护、数据更新等方面存在切实的编辑需求,例如修改错误数据、更新过期信息等。因此,本文围绕可审计的区块链隐私保护技术和可编辑区块链技术进行讨论,主要研究工作有以下两点:(1)为了在保