基于深度学习的中文文本分类研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:maxiao912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是指利用计算机对文本进行处理,主要包括分析文本(例如:情感分析、文本分类),提取关键信息(例如:关键词抓取)以及利用不同的方式表征同一文本信息(例如:机器翻译)等。随着移动互联网、社交和新媒体等网络平台爆发式的增长,网络中充斥了大量缺乏有效信息组织但具有研究价值的文本,而文本分类作为自然语言处理的关键技术之一,能够有效解决信息杂乱等问题,并广泛应用于搜索引擎、垃圾邮件过滤、个性化新闻和资料分类等领域。深度学习在自然语言处理上有着广泛的应用,但由于自然语言本身结构的特殊性,文本在上下文中存在一定的关联关系,并且这些模型相较于图像处理和语音识别领域,其深度仍存在一定的差距,导致现有的神经网络模型用以文本分类,分类效果不理想,同时,由于中文语句与英文语句的结构不同,导致目前常用的中文分词方法在分词之后相对于原语句产生歧义,也在一定程度上影响了文本分类的准确率。针对于上述问题,本文对中文分词、文本的表达以及分类模型进行了研究和改进。在中文分词部分,本文提出了基于双向LSTM的中文分词方法,利用LSTM的隐藏层记录任意长度历史的优点,同时结合字标注法,使得分词过程中能够有效利用上下文的历史关联关系,在一定程度上降低了分词所产生的歧义;在文本表达和神经网络分类模型部分,由于倒装、提前等自然语言现象使文本可能与前文有着很强的上下文依赖关系,导致现有的文本分类模型存在卷积核大小难以确定,文本向量维度过高等问题,并且这些文本分类模型与图像处理和语音识别领域相比,其较浅的深度难以提取文本中深层次的复杂特征,导致最终分类效果不够理想,本文提出一种卷积神经网络模型,在该模型中引入词嵌入层将文本转换为词向量,即表达了词与词之间的关系,又降低了维度和向量稀疏,很好地被提取特征,进而有效提升文本的分类效果,同时在该卷积神经网络模型中融入了Batch Normalization和ResNets中的Shortcut,有效解决了随着网络层数深度的增加所带来的梯度消失(Vanishing Gradients)和分类精度下滑问题。鉴于自然语言在长文本上具有前后关联的特性,本文将LSTM网络结构与本文提出的卷积神经网络结构融合,构成混合模型,使得混合模型在特征提取过程中,具备了既保留历史信息又利用前后文信息的能力,弥补了卷积神经网络的不足,最后将本文提出的卷积神经网络模型以及该卷积神经网络与LSTM混合模型进行分类实验,其实验结果与其他分类模型相比,文本分类的准确率得到了明显提升。
其他文献
目的探讨急性心肌梗死后左心室壁瘤(Post-infarction left ventricular aneurysm,PI-LVA)患者并发快速室性心律心律失常的危险因素与预后分析。方法回顾性调查我院2016年1月-2019年1月间收治的PI-LVA患者147例,根据资料确定是否合并快速室性心律失常(ventricular tachyarrhythmias,VTA)分为VTA组(42例)与no-V
水稻纹枯病和稻曲病是水稻生长过程中严重影响水稻产量和质量的两大重要病害,随着施肥水平的提高和种植制度的多样化,水稻纹枯病和稻曲病的发生日趋严重。本研究利用分子鉴定的方法明确了中国东北主要稻区水稻纹枯病病原菌种类及融合群的归属情况,并分别建立了水稻纹枯病优势致病菌茄丝核菌(Rhizoctomia solani AG1-IA)及稻曲病菌(Ustilaginoidea virens)的环介导等温扩增(l
图像显著性检测利用计算机模仿人类视觉注意机制,来提取图像中的重要区域,它是机器视觉领域的热门研究课题之一。本文对图像显著性检测进行深入研究,围绕着准确捕获显著目标
生物体在正常的新陈代谢中会不断产生自由基,而自由基释放过量便会导致自由基的积累,从而使自身的抗氧化体系不能够完全抵御自由基对机体的损伤。乳酸菌胞外多糖(EPS)是一种
2014年以来,我国P2P网贷市场的监督逐渐强化。这从如今比较密集的网贷政策便能够得知,监督的强化直接造成了行业的大规模的格局调整,小规模、不正规的平台正在逐渐撤离市场。伴随《关于做好P2P网络借贷风险专项整治整改验收工作的通知》文件的出台与各地平台验收整改细节规定的颁布,部分问题平台的项目暂停发行或者被强制下线。同时,资金面收紧、金融去杠杆化,造成平台出现挤兑危机,大量平台跑路、倒闭、难以提现,
人脸识别在智能监控、门禁系统的广泛应用,推动着计算机视觉、智能信息处理的飞速发展,人脸检测及跟踪技术在其中扮演着不可或缺的角色。然而,现实环境的复杂性使得对人脸的
水晶葡萄是贵州黔南州三都县特色主栽水果,香气独特,果皮薄且果肉柔软,水份含量高。由于水晶葡萄果皮较薄,果实水分含量高,在商品流通过程中容易损伤、腐烂和变质。贵州三都
人们的生活水平提高,购买力增强,在服装上的消费越来越高,众所周知颜色直接影响服饰在市场上的销量,因此染料有着巨大的市场需求量并且对质量的要求不断提高,这使得染料废水
目的随着社会经济的发展和人口的老龄化社会的到来,代谢综合征(metabolic syndrome,MetS)已严重威胁着全人类的身体健康水平。研究表明:MetS是以胰岛素抵抗(insulin resistance,IR)和向心性肥胖为发病的中心环节,特别是在老年人群中比较多发,近年来也有年轻化的趋势。MetS主要包括肥胖(腹型肥胖)、胰岛素抵抗、高血压、血脂、血糖异常等,它的发生受多种因素如遗传、
湖冰作为冰冻圈的组成部分,是地球表层关键水循环过程参量之一。其在时间序列上的变化可以比较直观的反映湖冰所在地区的气候变化状况。因此,关于湖冰的研究在区域气候变化研究中有着重要意义。目前,国内外对湖冰分类的研究根据其数据源可以分为基于主动遥感数据的湖冰分类和基于被动遥感数据的湖冰分类,其中基于主动遥感数据的湖冰分类可以对不同类型的湖冰进行分类。隐马尔可夫随机场和期望最大(HMRF-EM)算法是一种可