基于深度学习的网络评论方面级情感分析方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:pkuericz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,在互联网上发表评论已成为人们表达观点传递经验的重要途径。这些评论数据大都包含了用户对某个实体的观点和情感倾向,通过对这些评论数据进行情感分析,快速了解用户的观点和态度,不仅可以为商家或客户提供更丰富更有价值的信息,而且可以及时阻止恶性事件的发展,继而造福社会和民众。但传统的情感分析只能挖掘出用户对某个实体整体的情感态度,而无法对实体中不同属性或方面的情感进行分析。因此,为了进行更完整的情感分析,需要发现评论数据的不同方面对象,并确定评论针对每个方面所表达的情感态度,这就是方面级情感分析。方面级情感分析是自然语言处理中的多粒度任务,目前许多研究人员对方面级情感分析展开了研究。近年来,随着深度学习的快速发展,因不需人工构建特征工程、自动化程度高的特点逐渐被应用在越来越多的领域,在方面级情感分析任务中也取得显著的效果。但目前大多研究方法集中在对目标方面进行情感极性判断上,而忽略了对方面项抽取的重要性,同时也很少关注面向中文数据的方面级情感分析。因此,为了更好的完成方面级情感分析任务,本文针对这些问题,开展了基于深度学习的网络评论方面级情感分析方法的研究,尝试给出有效的解决方法。本文主要包含以下几个方面的工作:1.构建一种基于深度学习的网络评论方面级情感分析框架。该框架包括网络评论获取模块、网络评论预处理模块、方面项抽取模块、方面级情感分类模块和测试模块共五个模块。各模块分别给出网络评论获取、网络评论预处理、方面项抽取和方面级情感分类相关的方法。2.给出一种利用爬虫技术的网络评论获取方法。该方法通过采用Selenium和Chrome Driver模拟用户使用浏览器直接进入到一个指定的网络页面,利用文档对象模型对页面进行解析,同时利用XPath定位到网络评论正文的数据标签,并在搜索和爬取的过程中不断地改变其浏览深度,以获取足够多的评论数据。对于获取的评论数据,使用正则表达式进行清洗,提高数据的完整性和可用性。3.给出一种基于序列标注的方面项抽取方法。序列标注使用B、I、O标签对原始数据进行标注,将标注为B或I的词或词组视为将被抽取的方面项。该抽取方法先利用双向门控循环单元来构建初始的上下文语义表示,再利用截断历史注意力用于将获得上文已经标注过的属性信息来指导下文的属性标注和每个词以及位置感知注意力在考虑单词之间相对位置的同时,计算单词间的相关性,最后结合这两种特征信息共同来预测序列的方面标签。同时针对序列标注中的B、I、O类别不平衡的问题,本文选再利用截断历史注意力用于将获得上文已经标注过的属性信息来指导下文的属性标注和每个词以及位置感知注意力在考虑单词之间相对位置的同时,计算单词间的相关性,最后结合这两种特征信息共同来预测序列的方面标签。用Focal_loss作为损失函数,赋予标注为[B,I,O]的词相应的权重,从而对需要抽取的内容进行重点学习。4.给出一种结合方面局部信息和多头自注意力网络的方面级情感分类方法。该方法利用局部上下文关注机制注意文本中不同的方面可能会存在不同的情感倾向并减少远离目标方面的上下文可能会对其产生的负面影响,接着使用多头自注意力机制有效捕捉句子内部结构和上下文依存关系,使得分类器可以解释一个句子中的不同部分,同时一个过滤门被用来删除与当前方面无关的上下文词。最后采用定向注意力机制进一步对序列中的特定方面与情感信息进行语义建模,从而实现对目标方面的情感极性分析。同时,微调技术被用来训练神经网络的参数,交叉熵损失函数用来避免过拟合问题,以此来提高分类器的训练效率。5.给出对比实验和分析。先对实验所采用的国际语义评测组织公开的英文数据集和通过爬虫技术获取的中文数据集、开发环境以及评价指标进行简单介绍;然后通过对比实验来分析本文给出的方面项抽取方法和方面级情感分类方法与目前主流方法的效果。实验结果表明,与目前主流的方法相比,本文给出的方面项抽取及分类方法性能更优,在各实验评价指标上都有一定程度的提升,充分说明本文给出方法的准确性和有效性。通过多组对比实验的结果表明,本文给出的方面项抽取方法及分类方法能够较好地提升方面级情感分析的性能,同时也能让用户或商家更全面、直观的了解网络评论细粒度的情感表达,从而迅速把握民情,为政府或企业提供决策依据。
其他文献
蛋白质(Protein)通常由成熟m RNA(可变剪切异构体-isoform)翻译而成,它们是构成生命体的重要物质基础并参与各种生命过程。随着高通量生物技术的广泛应用,蛋白质序列数据、蛋白质功能标注数据、转录组测序数据(RNA-Seq)的规模不断增长,功能未知的蛋白质数量也在不断增加。准确、全面地对蛋白质的功能进行标注不仅可以帮助人们正确理解生命机理,对药物研发、疾病分析、基因富集分析等方面也提供
自门泽尔的“正式交流过程”和“非正式交流过程”论提出后,以图书、期刊为主体的纸介质出版物就正式奠定了其在学术信息交流体系中的主导地位。20世纪80年代以来,数字化网络化技术的普及为非正式交流复兴提供了新的契机,其中社会化媒体平台作为数字化网络化环境下非正式学术信息交流的一种形式,极大方便了科研人员即时开展学术信息交流,其中微信群是科研人员偏爱的非正式交流重要渠道。鉴于此,本研究以高校科研人员为研究
脑机接口(Brain-Computer-Interface,BCI)是一种不依赖于正常的由外围神经和肌肉组成的输出通路的通讯系统,为实现脑-机互联提供了一种全新的途径。基于运动想象的脑机接口系统被众多研究者认为是最具发展潜力的一种脑机接口系统,它可以帮助人们直接通过思维来控制基于BCI接口的机器人,这使得脑机接口不仅在残疾人康复、老年人护理等医疗领域具有显著的优势,而且在教育、军事、娱乐、智能家居
科技的迅速发展让大部分人都拥有了智能手机。现代生活也因为智能手机便于随身携带和高度智能化的特点便利了许多。本研究将基于智能手机的移动学习应用到初中英语的听力教学中,尝试解决目前初中英语听力教学中存在的一些不足,为改进英语教学提出一些新的思路。本研究主要采用对比实验研究法,将智能手机应用于初中英语听力教学的移动学习中,并进行了为期一学期的对比实验研究。首先,笔者选取了四川省成都市西航港第二初级中学的
当前教育发展中,要求尊重人才的个体教育,尊重人才的独立性,而具备独立思维能力的人才也是社会发展的需要。目前我国的大部分学校都存在班级体量大,学生学习水平参差不齐的问题。教师在面对班级的几十个语言基础和水平不同的学生时,大都不得不采取“照顾大多数”的一刀切的教学方式。根据语言学家提出的理论,只有当学生的原有知识基础和认知水平得到充分考虑,教师针对不同学生制定难度适当的任务时,才能使学生的学习最有效。
随着移动互联网技术的发展,信息的传播和获取更加便捷,音乐得以渗透到大众日常生活之中,通过各类移动音乐应用程序获取在线音乐信息已经成为人们主要的娱乐方式之一。此外,依托于良好的政策、技术与经济环境,中国已上线的音乐App数量多达上百种,市场竞争激烈。如何提供更加优质的产品、服务以及用户环境,提高移动音乐APP用户体验以及用户粘性,值得进一步探讨。同时,由于音乐获取目标的不明确性,许多情况下用户并非主
近年来,随着城镇化进程加快,农村劳动力向城市迁移,蔬菜产业用工难的问题日益严重。为缓解蔬菜产业劳动力紧缺问题,各种形式的蔬菜移栽机应运而生,目前我国市场上的蔬菜移栽机多属于半自动移栽机,仍需要多人辅助才可完成移栽作业,其作业效率受到人工作效率的限制,整机的移栽效率并不高,劳动强度却依然很大。全自动移栽机则采用机械全自动取投苗,效率高,劳动强度低。随着农业机械化进程的推进,蔬菜产业对全自动蔬菜移栽机
烟草是我国重要经济作物,由于烟田杂草生长旺盛,影响烟株的生长发育,导致烤烟产量减少,品质降低,影响经济效益。因此在烟田揭膜后要及时除掉烟田杂草来保证烟草的产量和品质。目前丘陵山区烟田除草主要由人工完成,劳动强度大且效率低。虽然针对平原地区田间杂草已经有较成熟的除草方式,但是针对丘陵山区烟田杂草,依然没有很好的除草方式。因此本论文对丘陵山区烟田除草机的工作部件及其控制系统进行设计研究,解决丘陵山区烟
现实世界已经走向网络化,从交通网络到居民移动出行网络,从生物网络到蛋白质交互网络,从社会网络到犯罪网络,从互联网(Internet)到万维网(WWW)等等。这些网络分别从宏观、微观、抽象、具体的层面对现实世界进行刻画,因此网络科学研究为分析现实世界复杂系统的共性特征提供了有效手段,如通过对网络结构及其节点间的连接的紧密程度(即社团结构)的研究,对揭示节点的内部组织以及发现网络的潜在功能特征具有重要
本文主要研究多面体锥上的广义互补问题(GNCP)的误差界估计,并提出了一类新的求解GNCP的算法。全文共分三章。 第一章,简要回顾了广义互补问题的研究现状,同时介绍了本文的主要研究成果。 第二章,主要讨论广义互补问题的误差界估计,并对误差界成立的各相关性条件进行了分析。为此,我们首先将广义互补问题GNCP等价地转化为一个混合互补问题(MCP),然后基于转化后问题的相关结论,对广义互补问