基于手机商品评论文本的情感分析与挖掘

来源 :企业科技与发展 | 被引量 : 0次 | 上传用户:abchkiesh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】目的:随着互联网技术的发展和智能设备的普及,电商平台出现了大量商品评论信息,分析和挖掘商品评论文本的情感,对于研究用户需求、商品口碑具有极其重要的价值。方法:文章利用编程语言python获取电商平台的商品评论信息,采用算法与人工相结合的方式,从数据预处理、特征词表的构建、修饰词表和情感词表的扩充等方面分析商品的评论信息和用户对相应属性的评价观点。结果:实现了商品属性和评价情感词的抽取和分类,实现了商品评论的情感倾向性分析,深入了解用户需求和产品口碑。局限:依赖情感词典进行情感分析,为取得更加精确的结果,情感词典需要不断完善。
  【关键词】情感分析;产品评论;文本挖掘
  【中图分类号】TP391.1 【文献标识码】A 【文章编号】1674-0688(2019)05-0130-03
  1 背景介绍和研究目的
   智能手机作为最主要的智能移动终端,深刻地影响着人们生活的方方面面。有报告显示,2017年上半年,中国手机市场出货量达2.81亿部,智能手机用户规模达到6.55亿人[1]。消费者面对日益同质化的手机难以选择,同时手机厂商也难以捕捉用户需求,从而进行针对性的产品更新和升级。
   情感分析又称为情感挖掘、意见抽取、倾向性分析,是指通过用户对某一事件或商品的评论文本进行分析、归纳,进而发现其观点和倾向性情感[2]。基于手机评论文本的情感分析,能有效地解决上述问题,对研究消费者需求和推动产品更新换代具有积极的指导意义。
  2 情感分析方法
  (1)数据的获取与预处理。本文利用编程语言python,从电商平台“京东商城”抓取了手机产品的评论文本,包括会员姓名、评价内容、追评内容、评价时间等字段,考虑到抓取数据存在冗余和无效数据,必须对抓取到的数据进行预处理,包括对获取的数据进行冗余的删除、字符的过滤、词形的转换等,然后借助中文分词工具Jieba去除停用词和分词。
  (2)词典构建。本文以中文情感词汇本体库为基础词典进行情感词典的扩建,该词典由大连理工大学构建。本研究中规定情感词的极性取值:-1为贬义、0为中性、1为褒义,以便更好地计算评论中的情感强度。同时,通过人工添加的方式补充手机评论领域特定的情感词并赋予强度值,例如人工添加“发烫”并赋值为-1,进行情感词典的补充。借鉴高宁[3]对于程度副词与否定副词共现的研究,同时参考施寒潇[4]、梅莉莉[5]等人的研究,建立情感词典、程度副词词典和否定词词典。分词后的评论文本结合以上3个词典计算出每个属性的情感倾向。
  (3)细粒度情感计算模型。计算情感词I的情感强度值的公式为I=α×β。其中,α表示情感词的强度,β表示情感词的极性值。根据自定义补充的情感词典,α的取值为1~7。β的取值为-1、0、1,分别表示负面情感、中性情感和正面情感。结合程度副词、否定词,将情感词的情感得分进一步优化,最终公式为Ei=(-1)γiPiIiMi。其中,Ei为最终情感词得分,γ为否定词的数目,决定情感词的词极性。P表示程度副词的强度,数值越大,则强度越高。
  3 实证研究
  3.1 数据收集与处理
   本研究通过python从“京东商城”爬取iPhone X、iPhone XR、荣耀Magic2、华为P30 Pro、小米9、OPPO R15x、vivo iQOO、荣耀Play、vivo Z3和荣耀8X 10款手机的相关评论,共10 000条评论数据,在去除重复评论后共获得9470条样本评论数据。将抓取的评论内容进行去停用词、分词等预处理,再运用TF-IDF算法进行关键词提取。word2vec词向量分类结合人工筛选,抽取归纳手机属性和近义词,并对评论数据按手机属性计算情感得分。
  3.2 爆款手机影响因素的建立
   词云图的制作(如图1所示),通过对预处理后的评论文本提取高频词,并绘制词云图,可以直观地展示出评论重点,有助于手机特征的总结归纳。
   从词云图和高频词中归纳消费者购买手机的主要关注点发现有七大属性,并基于word2vec词向量分類与人工筛选相结合的方法,抽取七大属性相关近义词。
   七大属性和相关近义词部分结果见表1。
  3.3 手机评论情感分析研究
   对所搜集的评论集进行情感划分,计算每款手机七大属性的得分,结果如图2所示。
   将属性得分总分结合各手机型号的均价,可以把10款手机划分为以下3个层次。
   第一层次为荣耀Play、荣耀8X、OPPO R15x和vivo Z3,这4款手机的不同配置均价在1 600~2 000元的价格区间,低于中国信通研究院公布的2018年国内市场智能手机的均价(2 523元)[6]。该类手机的特点是“物美价廉”,以低于2 000元的价格获取能保证用户日常体验的硬件配置,虽然不及各品牌的旗舰机型,但也区别于使用感极差的低端手机。
   第二层次为小米9、荣耀Magic2和vivo iQOO。该类手机的特点是“主打性价比”,保证在使用顶级硬件设备的情况下比其他厂商的旗舰机的价格更低,以价格优势获取部分高端手机使用者。例如,小米9在各项得分上均保持平均分以上的水平,唯一的短板是其电池容量较小,用户对其电池续航有所担忧。
   第三层次为iPhone X、iPhone XR和华为P30 Pro。这类手机的特点是“追求极致”。众所周知,iPhone引领着智能手机行业的发展,推动了指纹解锁、面部识别等技术的运用,其定价也从4 000元逐步提升到2018年的上万元,iPhone具有非常强大的品牌价值。但是近年来,iPhone创新乏力,在外观和技术上都没有明显的创新,导致了iPhone在我国的销量不断下滑。这也符合边际效用递减规律[7],即iPhone在没有跨越式发展的情况下,例行的升级换代已经无法打动消费者。    作为国产品牌的华为手机近年来发展迅速,凭借mate系列和p系列成功占据高端手机市场。华为P30 Pro凭借其独占一档的拍摄能力获得了用户的广泛好评,成为华为手机P系列的核心招牌。在电池续航和性能方面,华为P30 Pro的得分都处于较高水平,但在屏幕方面的得分较低,这也是被消费者广泛吐槽和质疑的,认为华为P30 Pro不应该配置一块较低水平的屏幕。
   通过上述分析发现,中国智能手机市场有几个明显的特点:第一,中国作为发展中国家,消费者的消费水平不断提升,但仍未达到发达国家水平,这就导致消费者对于价格十分敏感,售价成为消费者选择手机的重要筛选标准。体现在除iPhone以外的品牌全部都推出了“低价千元机”和“性价比手机”,以获取更多的消费者。第二,消费者对手机的需求愈发多样,从硬件配置到系统流畅度再到拍照能力和电池续航,用户对手机的各个方面都更加挑剔,这也是小米、荣耀等品牌所推行的策略,即“无明显缺点的水桶机”,以提高手机口碑。第三,我国除華为手机之外,其余手机的品牌价值并不突出。对比iPhone,我国仅有华为手机站在高端手机市场,不以绝对的性价比作为核心竞争力。如何提升手机的品牌价值,是国内手机厂商必须关注的一个重要问题。
  4 结语
   手机评论文本中蕴含了大量的情感信息,通过对手机评论文本进行情感分析,可以挖掘其中的用户情感和商业价值。本研究对于消费者和厂商而言都具有借鉴意义。这一研究方法不局限于手机行业,也同样适用于拥有大量用户评论的其他商业领域。
   同时,本研究也存在不足之处。情感评分依赖于完备的情感词典,情感词典需要进一步完善。此外,受抓取平台的限制,与手机近10万量级的销量相比,研究所反映的结论有限。
  参 考 文 献
  [1]中国互联网络信息中心.第41次《中国互联网络发展状况统计报告》发布[EB/OL].http://www.cbdio.com/BigData/2018-02/01/content_5672382.htm,2018-02-01.
  [2]李天辰,殷建平.基于主题聚类的情感极性判别方法[J].计算机科学与探索,2016,10(7):989-994.
  [3]高宁.现代汉语程度副词与否定副词共现的认知研究[D].长春:吉林大学,2013.
  [4]施寒潇.细粒度情感分析研究[D].苏州:苏州大学,2013.
  [5]梅莉莉,黄河燕,周新宇,等.情感词典构建综述[J].中文信息学报,2016,30(5):19-27.
  [6]迪信通在云南.中国信通研究院发布最新报告:2018国内手机均价2523元[Z].http://www.sohu.com/a/298428947_401685,2019-03-01.
  [7]张昆仑.边际效用递减规律新探[J].天津财经学院学报,2004(4):8-10.
  [责任编辑:陈泽琦]
其他文献
目前,我国汽车工业处于快速发展阶段,汽车行业对于人才的需求也处于不断变化过程中。高校车辆工程专业要培养出适应行业需求的人才,就需要针对专业核心课程体系进行改革。合
【摘要】社会在不断发展,人们的思想和观念也随之不断改变,群众舞蹈的形式越来越多样化,为人们群众的自娱自乐带来了不同的内心感知和精神鼓舞,下面本文就对群众舞蹈的现状及发展趋势进行详细分析。  【关键词】群众舞蹈;现状;发展趋势  群众舞蹈就是以群众为主,利用群众自己的编舞形式及创造,形成的一种以自我娱乐为目的的舞蹈活动。通过群众舞蹈活动来表达群众内心的愉悦思想、自由创造力和对情感的抒发及对生活的态度
【摘 要】机械零部件在使用过程中,因为各种原因发生故障导致无法工作或无法正常工作的状态被称为机械零部件失效。当然,不是所有的机械零部件失效都是设计范围之外的,超出机械零部件的设计使用工况或使用时间也可能造成机械零部件失效。但是在很多情况下,机械零部件发生意料之外的失效状况,这时往往需要进行失效分析找出问题的根源,从而对设计或使用方法做出改进,因此,失效分析是一类具有重要意义的技术。文章介绍了常见的
文章采用高铬高碳合金以碳弧堆焊方法制备堆焊层,研究了稀土元素 (Ce ) 对高铬高碳合金耐磨性能的影响.结果表明,堆焊层硬度和耐磨性均呈现先升高后降低的趋势,表明加入稀土元
随着高等师范院校音乐教育的全面发展,大提琴音乐演奏课程已在高等师范院校开展多年并广泛发展。如今大提琴演奏的艺术性与实用性在学校教学与演出单位等领域的位置被不断地加
文章介绍了广西吉宽太阳能设备有限公司与越南合作新型高效太阳能热水器的相关技术,集成自主发明专利与多项实用新型专利技术,通过与越南的科技合作进行新型高效、低成本太阳
【摘要】我们知道,音乐教师作为教师群体之一,对课堂教学用语是有讲究的,但在一些非课堂教学情境下的用语似乎就随便了,如在一些公共教学讨论交流的论坛或者教师群里,有一些朋友就直言不讳地称教授为“叫兽”,笔者认为这是不妥的。  【关键词】音乐教师;公共交流  “叫兽”一词大致是2008 年前跟“砖家”一词类似出现的网络用语。尤其常见于一旦有关大学教授的负面新闻出现,网民就会呼之为“叫兽”。乃至当下,即使
音乐评价是音乐教学工作中必不可少的环节,对提高学生音乐水平起到了关键作用,一方面能够使学生增加学习兴趣,另一方面则可以使学生提高学习热情,使课堂教学富有成效。  音乐课程标准指出,要对学生的音乐能力、态度等进行综合评价,以提高学生对音乐的兴趣,强化激励作用,弱化甄选功能。那么如何才能做到这样的有效评价呢?笔者根据教学实践,谈谈自己的体会。 一.从潜能入手,多元化评价 在当前音乐课堂评价体系中,存在