基于知识图谱与字词结合模型的短文本分类

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:snmn777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,随着电子商务交易和即时通讯平台的快速发展,网络上的短文本数据日益增长。所以,从这些数量巨大的短文本数据中提取出宝贵的知识是十分有必要的。短文本分类是自然语言处理领域的一个经典问题,它基于篇幅较短的文本数据学习其深层语义表征,同时用于分类任务。此类文本的长度通常较短,包含的有效信息较少且文本的口语化严重,具有极强的不规范性。所以,本文针对短文本特征稀少以及不规范的特点,从扩充短文本篇幅以及深层挖掘短文本特征两方面入手对短文本分类的问题进行研究,主要工作如下:(1)使用知识图谱对短文本进行扩展。针对短文本篇幅短小,蕴含语义特征稀疏的问题,本文提出使用知识图谱对短文本进行扩展。对短文本进行数据预处理后,使用Text Rank算法得到短文本的关键词词集。之后依次从知识图谱中查询关键词,并对查询结果进行实体消歧,得到当前关键词的扩展文本。最后将原文本与所有关键词的扩展文本拼接得到短文本基于知识图谱的扩展文本。同时,使用Word2Vec工具对扩展文本做词嵌入,并使用常见的文本分类模型Text CNN对其进行分类,验证本方法的性能。实验结果表明,使用知识图谱对短文本进行扩展后的分类准确率有所提升。(2)使用BERT模型改进一词多义问题。Word2Vec工具将词语表示为一个统一含义、统一维度的静态向量,无法对词语的不同含义动态地表达。针对此问题,本文使用BERT模型进行改进。在使用知识图谱对短文本进行扩展的基础上,使用BERT模型对扩展文本进行动态地词嵌入,并使用三类网络模型:BERT+CNN、BERT+RNN、BERT+RCNN分别提取扩展文本的深层特征。实验结果表明,使用BERT模型可以有效改善一词多义的问题,提升短文本分类的准确率。(3)提出基于字词结合和多头注意力机制的分类模型Char_Word_RMCNN。针对BERT模型以字为单位进行向量表示时的语义表达能力不足,本文提出基于字词结合和多头注意力机制的分类模型。使用Word2Vec工具和BERT模型两种词嵌入模型对短文本进行表示,结合两者的优势对短文本进行联合语义提取。之后,通过结合多头注意力机制的深度学习网络模型对两个词向量模型提取的语义特征进行聚合得到该文本的深层特征。实验结果表明,使用Char_Word_RMCNN模型对短文本进行分类的准确率有较高的提升。综上所述,本文使用知识图谱对短文本进行扩展,并使用BERT模型改进一词多义的问题,最后针对BERT模型以字为单位进行向量表示时的语义表达能力不足,提出了Char_Word_RMCNN模型提取短文本的深层特征。与直接对微博数据集和头条数据集使用Text CNN模型进行分类相比,使用知识图谱对两个数据集进行扩展,并使用Char_Word_RMCNN模型进行分类的准确率分别提高了0.2227和0.1422,F1得分的加权平均值分别提高了0.2213和0.1445。
其他文献
随着我国全社会用电量持续不断地增长,输电线路的数量以及覆盖范围也在逐年攀升扩增,绝缘子在输电线路中担任着机械固定、支撑线路以及实现电气绝缘等多种功能,拥有着至关重要的地位,若不及时检测更换故障绝缘子,会导致电力系统短暂奔溃并且造成一定的经济损失。由于输电线路大多处于山大岭等远离城市的地方,若采用巡检人员实地勘察的巡检方式,不仅安全系数低成本还高。目前部分省市已逐步采用无人机拍摄获取巡检图像,但由于
区块链利用拜占庭容错协议以及密码学技术保证节点间数据一致性和不可篡改,在互不信任的多方间实现安全的数据共享,避免了数据伪造、丢失等问题。近年来,区块链广泛应用于各种存证场景并发挥重要作用,如司法鉴证、防伪溯源等。基于区块链的存证应用种类丰富,其过程可概括为证据上传、证据共享以及证据查询三阶段。然而,交易数据信息简单、语义表达能力弱,系统提供的接口单一且系统吞吐低,如何从功能与性能两个维度改进当前基
随着循环神经网络(Recurrent Neural Network,RNN)的应用更加广泛,对抗序列的存在给这类安全攸关应用构成了极大的威胁,其中包含自动驾驶行为预测模型。RNN对抗序列生成是一种提升RNN鲁棒性的方法,然而目前现有的RNN对抗序列生成方法普遍存在着低效的问题。因此,针对上述问题,围绕自动驾驶行为预测模型,提出了一种基于权重自动机(Weighted Finite Automaton
气象条件是人民日常生活和农业生产的重要影响因素,随着各类气象灾害的频繁出现,人民群众的生命财产安全受到了严重威胁。因此,气象监测和预测变得越来越重要。随着传感器技术和通信技术的进一步发展,气象监测从人工记录数据逐步转为自动化记录和管理数据。气象数据的准确监测是开展气象工作的基础,也是准确预测各种突发性灾害天气的依据。目前市场上的气象监测系统,往往存在网络化能力不高、自动化能力欠缺以及设备部署复杂等
序列推荐(Sequential Recommendation)根据用户的历史交互序列预测用户的下一次交互物品,由于序列中复杂的物品依赖以及用户的多方面兴趣,想要准确预测用户的下一次交互的物品十分困难。现有的工作将序列中的每一个交互物品视作一个兴趣单元,并应用了最新的深度学习技术来学习到用户兴趣的统一表示。虽然这些方法在实验中取得了较好的效果,但它们仍存在一些缺陷:1)一个向量不足以表示用户多方面的
呼吸状态可以反映一个人的生理和心理状况,有助于相关疾病的筛查诊断和预后评估。本文对非接触式呼吸状态评估方法展开研究。具体来说,利用视觉传感器进行呼吸信号提取,结合多种信号处理技术对原始信号进行处理,借助机器学习技术对呼吸状态进行分类,并以此为研究框架,搭建了两套非接触式呼吸监控设备,深度研究人体向前走动时识别深呼吸的方法。主要研究内容及创新如下:(1)搭建基于彩色相机和标志物追踪的呼吸监控系统,结
在大数据时代,数据已成为比肩石油的基础性关键战略资源,正在颠覆全球社会的发展模式。数据流通是释放数据价值的关键环节,数据交易系统的建立是促进数据流通的重要举措。数据交易系统帮助卖方数据流入买方,增加数据的流动性,帮助释放数据价值。随着《数据安全法》等相关文件的发布,全社会对于数据安全和数据隐私的需求越来越高,对传统的数据交易系统提出了保护数据隐私等新要求。目前的数据交易系统存在三个问题:1.二次转
以图结构表示的数据广泛存在于各类应用场景,大规模图分析挖掘需要利用分布式图处理系统。图处理算法一般都是迭代的,且执行时间长。在此过程中,系统中节点出现故障是常见的现象。通常,分布式图处理系统利用检查点来处理故障。在正常执行期间,系统需要周期性地写入检查点。特别地,在写入检查点时,一些系统会暂停计算过程,即阻塞式写检查点。显然,这种阻塞式写检查点方法带来了额外的运行时开销。与此不同,非阻塞式写检查点
近年来,越来越多的计算机视觉系统被广泛地应用于人们生活中的方方面面,从日常生活到国家安全,计算机视觉系统起着重要的作用。这些视觉系统往往会受到部署环境的影响。雾是一种常见的恶劣天气,大量颗粒悬浮在大气中,导致视觉系统捕获的图像严重受损,出现部分信息丢失、纹理细节模糊、颜色失真等问题,这些问题会直接损害视觉系统的性能。因此,如何快速有效地对雾天降质图像进行复原,提升图像质量,消除雾霾天气对视觉系统的
在乡村振兴及美丽乡村建设的不断推进下,农村环境治理的发展现状落后于农业农村现代化发展的步伐,早已不能满足时代发展的新需求。“十三五”时期是我国农村环境保护的攻坚期,崇明在“世界级生态岛”战略目标的推动下,新建1.7万余座农村生活污水处理设施;但在长期运行过程中,大部分处理设施出水总氮、氨氮、总磷不达标,出水C/N较低,可生化性较差。本文通过实地调研,收集、计算、分析崇明农村户均人口、排放系数、处理