基于卷积神经网络的短文本情感分类研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:viclee0716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类是自然语言研究领域中的重要课题,目前对于文本情感分类研究多是基于情感词典和机器学习方法的,但它们在完成情感分类任务时割裂了文本中各词语间的关系,忽略了词语在上下文中的含义,无法捕捉到文本的深层语义信息,对于表达不规范的网络短文本的情感分析准确性更是有待提高。近年来,基于深度学习方法的研究日益加深,各学者也通过使用深度学习技术在自然语言研究领域中取得了众多突破。因此,本文提出使用深度学习方法对网络平台上的中文短文本进行情感类别判定,主要研究工作如下:(1)针对带有情感类别标注的中文数据集较少问题,本文采用编写爬虫程序的方式从京东商城官网上共爬取了 25000条评论文本,同时也利用word2vec工具在中文公共语料库的基础上训练出各词语的语义向量以解决情感分类实验时如何将文本数据数值化的问题。(2)针对文本表示问题,本文分别使用以tf-idf来表示特征权重的向量空间模型和word2vec训练的词向量模型来构造传统机器学习模型实验时的文本数据,通过分析实验结果发现,考虑了上下文含义的word2vec词向量更能让模型学习到文本中的情感信息,使其分类性能得以提升。但是提升程度有限,始终无法突破90%,这表明了浅层的机器学习方法对于复杂的、深层次的语义信息理解能力不够,也从侧面反应了运用深度学习方法实现对网络短文本情感分类的必要性。(3)针对传统机器学习模型和经典卷积神经网络模型在文本情感分类任务中所存在的不足,本文提出了一种融合情感特征的双通道卷积神经网络模型SFD-CNN(double channel convolutional neural network model fused with sentiment feature)。该模型在对实验文本数据进行向量化表达时不仅考虑了词语特征的语义信息而且还融入了其相应的情感特征属性,从而获取更多情感信息;同时,该模型还以双通道机制来提取不同表示方式下的文本特征。(4)设置多组比较实验,将所提出的融合情感特征的双通道卷积神经网络模型SFD-CNN同融合情感特征的卷积神经网络模型SF-CNN(convolutional neural network model fused with sentiment feature)、双通道卷积神经网络模型D-CNN(double channel convolutional neural network model)以及常用传统机器学习方法中效果最好的SVM进行对比。实验结果表明,模型SFD-CNN效果最好,准确率高达92.94%,相比于原始CNN模型提高了 2.19%,证实了本文的研究工作对于短文本的情感分类研究具有一定意义和贡献。
其他文献
研究背景:超声引导下射频消融(Radiofrequency ablation,RFA)由于其微创、安全、可近期多次重复治疗等优点,已成为<3cm肝癌的主要治疗方法之一,随着肝癌直径增大,射频消融术后肿瘤完全消融坏死率下降明显,而消融不完全是术后复发的危险因素之一,因此,射频消融多被局限于治疗肿瘤直径<5cm的肝癌患者。Goldberg1996年发现,肿瘤内部及周边丰富的血流灌注可快速带
计算机多媒体技术的发展为人类社会带来了诸多机遇,同时也给社会安全带来了挑战。数字视频作为生活中常用的网络媒介,在用于娱乐的同时也面临着被修改的风险,有些修改出于恶
随着物联网(Internet of Things,Io T)的快速发展,射频识别(Radio Frequency Iden-tification,RFID)技术作为物联网的关键技术受到越来越广泛的关注,成为科研工作者的研究热
多变量时间序列(MTS:multivariate time series)分类是根据已知MTS提取特征或者训练模型将未知的MTS标记上已知标签的过程,该工作是当前数据挖掘和模式识别领域最具挑战性的
图像分类是机器学习和模式识别领域中一个十分重要的研究热点,其目的是基于标签已知且完整的图像数据集训练一个分类器,并对新样本的标签进行预测和分类。传统的图像分类问题
由于混沌系统的同步在保密通信、人体生命科学、林草动力学等方面有着广泛的应用前景,因此混沌系统的同步控制受到了越来越多学者的关注和研究。大多数的文献将混沌系统的同
背景&目的结直肠癌是一种常见的全球多发的死亡率高的恶性肿瘤,结直肠癌患者死亡率高的主要原因是难以控制的复发和转移。该肿瘤的发病率呈逐年增加的趋势,其高致残率及致死率给政府带来沉重的医疗和经济负担,而生物学标志物的鉴定有望辅助预测高复发风险的人群,从而实现早期诊断和进一步治疗。新合成的蛋白质在粗面内质网中进行组装合成,进一步运输到高尔基体进行糖基化修饰。上皮组织黏蛋白主要分为分泌型黏蛋白和膜
柔体机器人是由柔性材料构成的一类新型仿生机器人,理论上具有无限的自由度,结构复杂,理论分析困难。本文结合了分析力学和弹性力学的方法研究了柔体机器人系统的基本理论及N
随着计算机技术的发展以及智能手机与电子阅读设备的逐渐普及,电子文档已成为人们主要获取信息的方式之一。大部分印刷体文档是以图片形式进行存储的。得益于光学字符识别技
土地资源是人类生存最基本的自然资源,为国家和社会经济发展提供了物质保障。我国土地资源丰富、类型多样,获取真实准确的地物信息是对其进行合理开发利用的关键,对于及时规