基于文本挖掘的汽车评论情感分析

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:whatisbianbian01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
截至2021年3月,国内汽车保有量接近三亿辆,汽车正由原来的资产性商品逐渐向消费型商品转型。对不同类型的消费者来说,他们对新车空间、动力、操控等方面的要求不尽相同,往往在价格范围内选中心仪的几款进行比较。对汽车厂商来说,从网站大数据了解消费者的喜好,未来可以侧重于汽车的某些设施,发布更加符合市场需求的车型。因此,对汽车评论进行情感分析可以从海量数据中抓取关键指标,针对不同价格区间的汽车评论生成词云图,体现出正向情感信息与负向情感信息,可以直观了解消费者的真正需求,有助于汽车厂商正确决策,具有较强的现实意义和理论价值。本文从汽车之家官网口碑模块采集了32648条评论数据,进行数据处理,包括去掉重复文本、Jieba分词、去停用词、保留中文和英文文本。然后使用TF-IDF、Word2vec、基尼指数、卡方检验法进行特征提取,比较四种特征提取方法,发现Word2vec在支持向量机、朴素贝叶斯、随机森林、XGBoost这四个分类器上的表现均为最优,说明使用Word2vec提取特征词在一定程度上提升了文本情感分类的准确率。以支持向量机、基于KNN的Bagging方法、Ada Boost、朴素贝叶斯作为基分类器,以逻辑回归作为次级分类器构建Stacking集成模型的F1值为0.968。并且在样本数据集上通过其他模型进行情感分析的F1值由大到小排列分别是支持向量机、Ada Boost、K近邻算法、朴素贝叶斯。然后在价格(单位:万元)区间(0,10],(10,20],(20,35],(35,50],(50,+∞)中,利用以逻辑回归作为次级分类器构建的Stacking集成模型,对于主流车型轿车和SUV的评论进行分类预测,依据被预测为积极情感与消极情感的评论文本生成词云图识别用户的客观评价,为消费者购车和车企进一步扩大市场提供一定的参考。
其他文献
随着集成电路工艺的不断进步,辐射效应对电路可靠性的威胁越来越大,其中单粒子效应逐渐成为集成电路故障的主要原因。标准单元作为构成集成电路的基础,对其进行准确的单粒子效应敏感性评估,是抗辐射集成电路设计与加固的基本要素。由于标准单元的数量过于庞大,考虑到时间与精度上的折衷,需要利用仿真手段获得其单粒子效应数据。本论文基于一种电路级单粒子效应仿真方法对标准单元库中大量标准单元进行了单粒子效应仿真,针对特
基础冲刷是水流侵蚀作用的结果,会导致桥梁墩台基础周围起约束作用的物质被移除。基础周围的河床冲刷是导致既有桥梁结构失效的最重要原因之一。由于基础冲刷引起的结构破坏通常不会有明显征兆且容易导致桥梁完全垮塌。为减少基础冲刷导致桥梁垮塌的概率,需对服役期间的桥梁基础冲刷进行实时监测,以评估既有桥梁结构的使用安全性。本文提出了一种基于超声原理的桥梁基础冲刷监测方法,针对基础冲刷的超声监测技术进行了模型验证试
本文提出了一种求解带旋转项空间分数阶Schr(?)dinger方程的数值方法.我们首先介绍关于Schr(?)dinger方程的研究背景以及现状.然后基于角动量旋转项的Schr(?)d inger方程,我们使用了时间分裂Fourier拟谱方法求解带旋转项分数阶Schr(?)dinger方程(2D和3D),用Fourier拟谱方法将带旋转项空间分数阶Schr(?)dinger方程分裂,得到分裂格式.我
古代图书馆学走向西学范式的近代化转型,是中国图书馆学发展史上极为重要的部分。中国图书馆学形成于上千年来的文献整理与管理活动中,早已具备丰富的研究内容与学术思想,但囿于传统学术环境而未形成独立的学术体系。换句话说,古代图书馆学的学术内容与学术思想散见于文献整理与治学研究的实践经验中,其本身并没有形成专门的学科范式。正因如此,近代图书馆学发展一度陷入误区,出现了中国古代无图书馆、更无图书馆学的观点。中
随着人类社会迅速发展进步,环境污染、能源枯竭等问题愈发严重,开发绿色环保可再生的新能源迫在眉睫。燃料电池、锌-空气电池和超级电容器作为当今新型的能量转换及储存装置,因其绿色友好且能量转换率高等特性备受关注。电极材料对燃料电池、锌-空气电池及超级电容器电化学反应的效率和性能有着重要的影响。生物质衍生的多孔碳材料因其来源丰富、稳定性好、结构独特等优点,因此作为电极材料在能量转换及储存领域中发挥着重要作
磁性拓扑材料是综合晶体学、磁学和拓扑学的新型量子材料,包括磁性拓扑绝缘体、磁性拓扑半金属等。这类材料具有低耗散的电子输运等奇特的物理现象,因此其在未来高速、低能耗的自旋电子学器件中具有极大的应用潜力。磁性拓扑绝缘体是区别于普通的绝缘体和拓扑绝缘体的一类拓扑量子态,其典型特征是具有非零Chern数以及无带隙的手性边界态。磁性拓扑半金属作为拓扑量子材料的最新成员,其结合了拓扑与自旋电子学的特性而受到研
现阶段我国在针对复杂钢结构焊接时仍然是以人工焊接为主,尤其是在面对复杂钢结构中存在的立直角型钢结构时存在着焊接自动化程度低和焊接质量差等问题,轨迹识别和焊枪姿态识别在实际应用中的效果还不尽人意。其主要原因在于立直角为复杂型结构件,装夹难度大,立直角拐点位姿变化复杂,焊缝形状难以保持,同时立焊过程中重力也影响其焊接效果,以至于焊缝轨迹识别困难及立直角焊缝成形质量差。因此,急需研发出一种针对复杂钢结构
为了解湖南省“十三五”期间档案数字化外包情况,本文选取“中国湖南政府采购网”2016-2020年公布的档案数字化招投标项目文本进行统计分析。文章对项目成交数量、成交金额、招标模式、发包单位、承包单位等进行分析,以求客观反映五年来湖南省档案数字化招投标市场的现状。文章一方面总结各级政府和事业单位在档案数字化招标方面的取得的成绩及经验,另一方面分析湖南省档案数字化承包单位的总体情况,目的是为各级政府机
随着全球人口和经济的增长,新能源型的建筑能耗所占世界总能耗比重逐渐加大。有效地预测分析建筑能耗相关数据,可以为建筑能源系统的规划控制能耗配比起到促进作用。本文以Kaggle竞赛平台提供的某建筑一年的能源消耗数据为例,首先对该能耗数据按季度和月度进行序列分析,挖掘出有助于预测建模的特征。接着根据建筑能耗数据非线性特点,分别借助时间序列、机器学习模型、神经网络等多个模型一一对未来一周每小时的能耗值进行
在远离大陆的岛屿建设之中,面临着缺乏淡水、缺乏天然骨料、海风和高温、高湿和高盐雾等严峻问题,而我国绵长的海岸线和丰富的珊瑚资源提供了就地取材的可能性。由于天然珊瑚多孔、质轻、强度低等材料缺点,目前已有研究的珊瑚骨料混凝土强度和耐久性较差,很难适用于实际工程建设。因此本文提出将珊瑚破碎研磨成珊瑚粉取代石英材料,制备掺珊瑚粉超高性能混凝土(Ultra-high performance concrete