基于词典和机器学习的酒店评论情感分析

来源 :江苏科技大学 | 被引量 : 4次 | 上传用户:ch3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务与社交网络的快速发展,互联网平台中每日产生海量的个人言论和商品服务的评论。这些评论包含人们的各种情感并且蕴含巨大的商业价值。由于数据来源广泛,数量巨大,每时每刻都在增长变化,若通过人工方式来挖掘这些庞大的信息,不仅耗时耗力而且成效甚微,所以需要通过情感分析技术对海量的文本数据进行处理与分析。情感分析是自然语言处理领域的一个重要研究方向,具有重要的研究价值和实际的应用价值。本文主要对酒店领域的用户评论进行情感分析,从中挖掘用户对酒店服务等方面的态度,为酒店提高服务质量提供一定的帮助。本文主要工作如下:(1)以通用的中文情感词典为基础并将酒店评论数据作为扩充词典的语料,构造适用于酒店评论的情感词典。使用通用的词典与本文构造的情感词典对同一语料进行情感分类,并比较分类结果。实验结果表明:在正向与负向分类中,本文构造的词典在准确率上分别是76.5%及80.4%,优于通用词典的分类效果。(2)由于词向量表示方法未能考虑文本中词语的重要程度,因此本文将特征权值与词向量相结合,提出加权词向量,将普通词向量与加权词向量分别作为文本表示的方法,并利用支持向量机进行分类实验。实验结果表明:使用加权词向量表示文本进行分类的效果比采用普通词向量表示文本进行分类的效果好,在准确率上分别是85.2%及81.6%。(3)将情感词典与机器学习方法结合对酒店评论进行情感分析,利用本文提出的词典构建训练集,以及使用加权词向量表示文本,通过朴素贝叶斯和支持向量机两种不同算法训练分类器,并用测试集验证分类的效果。实验结果表明:对不同数量的评论数据进行实验时,支持向量机的分类效果优于朴素贝叶斯,当数量为2000、4000、6000及10000时,在准确率上,支持向量机比朴素贝叶斯高4.7%、5.9%、7%及7.6%。
其他文献
<正>中国计量科学研究院作为我国最高的法定计量技术机构,近几年来,紧紧围绕服务国家经济社会发展量传新需求,大力推进和完善科技体制改革,彻底改变只顾低头做课题,不问市场
内生真菌(Endophytic fungi)是指生活在活体植物组织内部,但不会对宿主植物造成明显负面影响的一类真菌。内生真菌以其特殊的生态地位以及特殊的生物活性物质为研究天然产物提供
生物炭是指生物质在厌氧或缺氧条件下热解而产生的含碳量较高、孔隙结构丰富的碳材料。目前,生物炭的制备、结构特征、吸附性能及行为机制之间的关系成为环境领域研究热点之
光是植物生长发育的重要能量源和信息源,光质则作为光环境中的关键影响因子通过光受体传导途径调节植物的整个生命周期。随着光生物学研究的不断深入和低成本高光效的人工光
精密数控机床的性能反映了国家的科技实力与装备制造业的发展水平,备受各国工业界的重视。其进给系统广泛采用液体静压导轨作为支承部件,静压导轨的静动态特性更是保证各运动
应用文献计量学和数据挖掘技术,对1949~2009年60年中医药防治流行性感冒文献进行全面、深入的分析研究,从文献计量分析、流行病学、中医理论认识、辨证分型治疗、方药筛选、流
目的为了提高神经外科护理质量并减少各种不良事件的发生率,分析和探讨在护理质量持续改进中采取品管圈的价值和意义。方法按照随机原则从2014年1月—2015年12月来该院神经外
为了反分析砖石古塔的材料力学参数,将均一化原理、响应面法和遗传算法三者结合,提出了融合改进响应面-遗传算法。首先基于ANSYS软件建立古塔的三维有限元模型,采用BBD (Box-
本论文研究了重金属铬(Cr)在山东潮土和江西红壤中对微生物参数和植物根伸长的毒害效应,并利用实验获得的数据和文献搜集的数据建立Cr(Ⅵ)的生态毒理学数据库,基于物种敏感性分布(SSD)方法,初步推导出两种典型土壤条件下Cr的生态安全阈值,可为Cr污染土壤的生态风险评价和修复管理等提供参考。(1)通过微生物测试的方法,研究了两种典型土壤下潜在硝化速率(PNR)、土壤脱氢酶活性、脲酶活性和磷酸酶活性及
古代蔗糖制作技术与甘蔗产地文启古人嗜食甘蔗和蔗糖,制糖技术亦起源较早。甘蔗之吃法,除可直接斩断嚼食外,还可榨汁以器皿饮用,蔗汁经曝晒可制成蔗饴,如熬煎则能生产出砂糖和冰糖