基于深度学习的商品评论情感数据分析模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Z_L_Q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子商务的飞速发展,网购已经成为我们日常生活中的一部分。在网购时,用户除了要看商品本身描述信息之外,其他已购买用户的评论也是重要参考指标。对商品评论进行情感分析,对用户来说可以知道商品的真实口碑,从而决定是否购买;对商家来说,通过了解商品的市场口碑情况,调整销售策略从而增加营收。由于商品评论文本偏口语化,机器学习的方法过度依赖人工提取特征,导致机器学习方法在进行商品评论情感分析时有较大局限性。而深度神经网络的复杂度和自动提取特征的特性使得深度学习方法可以很好的进行情感分析。但常用的深度学习模型在进行情感分析时本质是文本分类,没有使用文本中的情感信息,这会损失一定的精度。从以上角度出发,本文将商品评论中的情感信息融入深度学习模型中,提出了tri-channel-CNN-BiLSTM-emotional-multihead-attention结构的商品评论情感分析模型。采用爬虫技术从京东商城抓取评论数据,经过数据清洗和数据平衡之后分成训练集和测试集;搜集了互联网公开的基础情感词典,采用PMI点互信息算法进行情感词典扩充;改进了传统的word2vec词向量训练算法,在损失函数中加入情感信息,使得训练出来的词向量包含情感信息,更加适合情感分析任务。还训练了词性向量、依存关系向量,采用三通道矩阵来表示商品评论;采用CNN+BiLSTM网络结构,使得模型可以捕获本文的局部信息和全局信息。在卷积层的计算结果中加入位置向量,使其包含了序列信息,充分发挥BiLSTM层的特点;引入多头情感注意力机制,通过输入文本中每个词的情感得分来计算其对整个文本情感倾向的贡献度。通过编码实现和调参优化,本文提出的模型在京东商城评论数据集上的F1值为95.97%,而机器学习方法支持向量机、朴素贝叶斯和决策树的F1值分别是86.01%、82.83%和82.95%,常用的深度学习文本分类方法TextRNN和TextCNN的F1值分别是91.29%和90.08%,通过对比可见本文提出的融入情感信息的深度学习模型在情感分析任务中有更强的适用性。
其他文献
社区作为我国最基层的单位组织,不仅是事故灾难的直接承受载体,同时也是第一时间承担事故应急救援任务的载体,在城市应急管理工作中发挥着至关重要的作用。对于社区而言,应急资源是应对风险的有力保障。当突发事件来临时,社区出现应急资源配置不足的情况,就会导致事故的连锁反应与进一步恶化。因此,对社区进行应急资源配置水平评估研究,对提升社区应急管理能力具有重要的实践意义。本文通过对北京市西城区、丰台区、密云区、
在欧氏空间中,曲面的弯曲程度由曲面的第二基本形式刻画,其具体含义为曲面的第二基本形式Ⅱ近似地等于曲面与切平面的有向距离的两倍.随着不定度量几何的发展,很多欧氏空间中的几何问题被推广到Minkowski空间.自然地,研究Minkowski空间中曲面的第二基本形式的几何意义就具有十分重要的意义.由于Minkowski空间中度量的不确定性,向量可以分为类空,类时及类光向量三类.根据Minkowski空间
曲线和曲面是微分几何学主要的研究对象,是微分几何学里重要的基础元素,而曲线是曲面的基础,在微分几何学里扮演着重要的角色.所以本文对三维欧氏空间中的特殊曲线进行研究,运用经典的微分几何方法,考察了一类具有特殊性质的曲线的曲率和挠率之间的关系.主要由以下几章构成:第一章简要回顾了几何的发展史,同时介绍了本文的主要内容.第二章首先介绍了欧氏空间中曲线的基础知识,然后介绍了一般螺线的定义与性质,最后给出了
随着纳米光电薄膜制备工艺越来越成熟,工艺监控对于薄膜光学常数和厚度测量的精度要求越来越高。光谱椭偏仪测量薄膜厚度和光学常数具有精度高、非接触性、非破坏性和测量速度快等优点。光谱椭偏仪系统模型通常假定平行光入射到厚度均匀薄膜上实现测量,因此薄膜反射前后的偏振光都假定为完全偏振光。然而在实际椭偏测量过程中,存在厚度不均匀、有限带宽、数值孔径和散射引起的退偏效应。由于薄膜非退偏光学特性建模计算光谱无法准
目的:探讨剪切波弹性成像技术对下肢深静脉血栓分期的应用价值。方法:选取106例下肢深静脉血栓患者(106条患肢),按照发病时间分为急性期组(发病时间 30 d,n=24)。运用剪切波弹性成像技术测量血栓的杨氏模量值,对各组的杨氏模量值进行组间统计学分析;运用ROC曲线分析得出不同时期血栓的杨氏模量值的截断点
党史学习教育开展以来,中盐吉林盐业有限公司党委结合公司实际,制定了活动方案,广泛征集群众意见,围绕群众“急难愁盼”问题,扎实开展“我为群众办实事”实践活动。截至目前,各项活动有序推进,并取得了阶段性成效。保障社会民生需求开展“学雷锋,进社区”志愿服务活动。3月5日,公司党委组织志愿者服务队前往永信社区,与地方党组织开展结对共建,开展“学雷锋,进社区”志愿服务活动。
期刊
随着中国在计算机芯片技术领域的不断发展,国内自主研发GPU领域更是创新不断。但由于参数没有进行系统的统计的原因,对于目前自主研发显卡与市面上流通的一般显卡在性能上有多大差距,相关研发人员并没有一个量化的认识。而市场上没有能支持自主显卡的基准测试系统,无法获得相关数据。因此设计一款能够覆盖包括自主显卡在内各式显卡,以及能够运行在各个常见PC操作系统上的基准测试系统是十分必要的。本文主要研究内容是显卡
在学术领域中常常需要通过关键字对论文进行分析,关键字提供了高度概括性的论文信息,是对论文进行信息检索、自动分类、自动聚类和观点挖掘的基础。随着网络信息量的迅速增加,手工标识关键字费时费力且主观性强,因此论文关键字自动生成成为了研究热点。传统的关键字自动生成算法主要通过统计数据进行关键字生成,没有考虑到文本中的语义信息。随着深度学习和自然语言处理学科的快速发展,现今的关键字生成算法能够利用序列到序列
随着互联网技术的飞速发展,网络信息越来越丰富,消息传递越来越即时,互联网成为了人们日常获取信息的重要来源。面对浩瀚的互联网信息,人们想要获取自己想要的信息变得越来越困难。若一个网站能够实时捕获用户浏览行为,提供给用户个性化服务,会得到用户的认可和青睐。获取用户的行为轨迹,即时提供个性化信息服务,成为一个网站长期发展的重要一环。基于插件的用户点击流分析系统主要分为数据采集模块、数据预处理模块、数据仓
图像分割是进行图像理解、分析的基础。准确的分割对后期理解图像有重要的意义,是当前图像处理领域的热点。采用水平集的图像分割算法,凭借其多信息融合性、高度的灵活性和自由的拓扑变换等优点,受到了国内外学者的广泛关注。目前,水平集方法还处于发展阶段,仍没有一种处理各类图像的通用分割算法,处理灰度分布不均、多目标等复杂背景的图像效果不理想。因此,在理论和应用方面有待于进一步完善和研究。在此背景下,本文对基于