基于深度学习及图学习的短文本分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ustbyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,尤其是随着各类如微信,QQ等社交媒体的快速发展,互联网短文本的数量以爆发的趋势快速增长。而短文本分类是自然语言处理中一个重要的研究课题,短文本分类广泛的应用在对文本的主题分类,用户评论的情感分析,以及对网站评论,邮件标题的垃圾检测中。短文本分类也是自然语言处理中的一个基本任务,与普通文本或者长文本不同,短文本有自己明显的特征,主要包括如下:一方面,短文本,一般来说是在150个字以及以内的文本,短文本主要出现在社交媒体,网站评论,文章标题,及短信微博中;另外一方面,现在互联网中的短文本有噪音大,更新快,并海量产生的特点。短文本算法的分类,主要有以下几个类别,分别是,规则型短文本分类算法,机器学习短文本分类算法,深度网络短文本分类算法和图学习短文本分类算法。在深度学习的发展下,越来越多的深度学习算法被成功应用在短文本分类中。深度学习能够有效的对短文本进行建模和分类,然而,由于短文本本身稀疏性和关键词多义性,存在变体或者变形词的问题,如何对短文本进行更加有效的分类仍然是一个比较大的挑战。本文围绕着短文本特有的稀疏性问题和短文本关键词常常一词多义影响分类结果的问题展开深入研究,主要研究工作如下:(1)针对短文本中关键词多义性和稀疏性的问题,文本创新性的提出了上下文敏感的主题记忆网络(cs-TMN),该网络利用上下文敏感的词向量表示和全局主题知识进行短文本的分类。其中,上下文敏感词向量主要由局部上下文表示和全局主题表示构成,可以有效的解决短文本中一词多义的问题,然后,利用上下文敏感词向量进行匹配内容相关的主题知识,来解决短文本稀疏性的问题。(2)随着图神经网络和深度学习的发展和结合,短文本分类也可以利用图神经网络来进行分类和分析。本文提出一种传导性图卷积神经网络短文本文本分类算法(STGCN),同时,针对短文本的稀疏性问题,本文在构建图的时候,利用主题模型,将相关的主题信息也作为图的一部分,有效的缓解短文本稀疏性的问题。同时算法将STGCN得到的词向量和文档向量和最近最新的大规模语言模型BERT生成的词向量结合。一起输入分类器中得到最终的分类结果。(3)最后,为了进一步的有效解决短文本的稀疏性问题,本文提出了将外部知识作为特征补充,提出了一种基于门控的图神经网络的文本分类方法。具体来说,算法首先从Microsoft Concept Net、Freebase和Sentic Net等外部知识来源检索知识。然后,利用多头知识注意对相关知识进行匹配,降低检索到的知识的噪声。最后,之前的研究者的工作很朴素地将知识节点纳入到连接密集的文本图中,这样会给每个连接分配相等的权值,不可避免地导致性能下降。相比之下,本文提出了门控图神经网络的一个变种,增加了一个注意力聚集函数,可以有效的对不同重要程度的邻居节点进行聚合。综上所述,本文主要研究了基于深度神经网络和图学习神经网络的短文本分类算法,其中,针对短文本特征稀疏和关键词多义的问题,本文提出了三种网络框架来对短文本进行有效分类。并且这三种短文本分类深度学习和图学习算法,可以很有效的应用到各种短文本分类任务场景,比如医疗对话,医疗文本的分类和分析。
其他文献
随着产品复杂度的提高,对设计师的能力提出了更高的要求。设计师不仅需要考虑产品的外观结构,还需要考虑复杂的交互过程。由于缺乏工程技术基础知识,在设计原型搭建中,设计师不得不面对新的挑战。而开源硬件是适合设计师使用的工程技术与设计结合的有效工具,如Arduino平台等,由于公开,易获取的特点,得到设计师的喜爱。同时因其不需要设计师具备电子和编程的背景,被广泛使用。本文通过文献整理分析了开源硬件在设计中
交通工具的前瞻概念设计是汽车主机厂研发战略中的重要环节。着眼于未来五年、十年、甚至更为长远的时间跨度,探讨符合社会、科技发展趋势的新出行方式是前瞻概念设计项目的工作内容。而对于传统的汽车概念设计流程而言,数字化技术的加入也正在改变原有的设计工作模式,数字表征方式作为数字化设计流程的前提,催生了新的创意探索路径、设计评审方式以及团队合作机制。本文所记录的概念设计项目来源于作者参与的上汽通用“ICCG
少数民族传统村落是各少数民族生态文化的“博物馆”,见证了我国少数民族悠久的历史文化发展,体现着独特的少数民族文化精髓。长期以来,我国在城镇化建设过程中,一直对传统村落给予着很多的关注,但是不合理的规划和盲目的经济建设在一定程度上破坏了少数民族原有村落的格局和建筑风貌,部分传统村落在开发的过程中过度商业化,传统民族文化难以得到传承,村落的传统文化、民居建筑和生态环境遭也受到了严重的破坏,传统村落正面
市政工程作为城市的基础构架和依托,代表了城市的形象,与人民生活息息相关。由于市政工程建设地点多位于城区,受到环境、场地、交通等因素的制约,业主期望能“短、平、快”地完成施工,对市政工程的工期作出了更高要求。同时,鉴于市政工程的技术复杂性和内容多样性远超于建筑工程、措施项目费更多更杂,故其安全管理和成本管理也比建筑工程更加困难。现阶段疫情防控常态化下的市政工程,为保证施工进度正常进行,投入了必要的疫
为缓解能源危机及环境问题,近年来电动汽车产业蓬勃发展。锂离子电池能量密度高、自放电率低、寿命长,被广泛用作电动汽车的动力电池。但是锂离子电池对温度敏感性高,为了保证锂离子电池的工作性能,国内外学者在电池热管理领域开展了大量的研究。相关的理论与实验研究大多关注高温时锂离子电池的散热性能,而低温环境下锂离子电池面临容量大幅衰减、安全隐患突出等问题,因此开展低温环境下锂离子电池热管理方面的研究是非常有必
智能交通系统(Intelligent Transportation System,ITS)是集成信息通信、交通控制、交通引导、人工智能等多种功能,被用来解决和管理交通相关问题的智能化综合系统。短时交通流预测作为智能交通系统重要组成部分,可为城市交通规划提供决策支持,为人们出行提供实时交通引导。然而,交通流具有复杂的时空相关性和非线性的特点,如何提取路网中节点间的时空特性与真实的关联关系对于提高交通
随着世界经济不断发展,全球化程度的不断加深,嵌入全球价值链的分工模式成为主流,各国也积极选择嵌入全球价值链以获取更多利益。全球价值链是将全球化的生产、营销与最终回收等环节相连的过程,实现商品或者服务的价值是其最终目的。在全球化程度不断加深的当下,关于全球价值链嵌入度的研究也不断增多,与此同时,随着全球价值链嵌入程度的不断加深以及贸易规模的不断增大,贸易的稳定性也成为了一个需要关注的问题。贸易稳定性
随着技术的飞速发展和数据速率的不断提高,数据分析和数据聚类的术语出现了新的变化。从数据来源分析的角度出发,我们认为开发探索性分析技术是一项具有挑战性的任务。K-Means算法实现简单,是目前最流行的聚类算法之一。本研究采用k均值算法对总体支出进行聚类。分析了老挝首都万象2018年家庭社会经济调查的数据。通过使用DB指数和SD效度指数,我们发现合适的聚类数量为三个聚类。然后利用关联规则技术确定变量之
当今资源和环境问题日趋严重,汽车轻量化的需求十分迫切,轻量化材料的使用是降低汽车重量的有效途径。铝合金材料比强度高、耐腐蚀性能好,目前已被广泛应用于汽车工业中。镁合金是近年来热门的轻量化材料,具有密度小、重量轻的特点。异种材料之间必然涉及到可靠性连接的问题,磁脉冲压接技术作为一种环保高效的新型连接技术,已在多个行业的管件连接中得到应用。在该工艺的基础上加入结构胶,形成一种磁脉冲压接-胶接复合连接工
实施乡村振兴战略是党的十九大作出的重大决策部署。乡村振兴产业是基础,人才是关键。红河州农村人口基数大,留守农民综合素质相对较低,促进乡村全面振兴,必须大力培育一支“有文化、懂技术、善经营、会管理”的高素质农民队伍。一、培育高素质农民的重要性和必要性随着工业化、城镇化的不断推进,大量农村劳动力转移外流,尤其是具有一定文化水平和经营管理能力的青壮年农民不愿意回乡务农,农村“空心化”已成为制约社会经济发
期刊