基于文本的情感分析技术的研究与应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:lvshuijing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G移动网络的到来以及便携式移动端网络设备的快速发展,人们能够从互联网中获取大量的信息,并在购物网站、社交媒体上随时随地发表自己的言论,带有用户个体情感的文本数据得到了爆发式增长。基于文本数据的情感分析任务自出现以来一直备受关注,在许多实际应用中得到了广泛的研究,该任务的目的是自动检测出文本中包含的情感极性,探究用户对产品、热点事件、问题、事物等的看法和观点,帮助个体或者组织作出更好的决策。本文主要对不同粒度的文本情感分析任务进行了研究,并对提出的算法进行了广泛的实验,最后将算法应用于实际,实现了情感分析Web应用。本文主要研究成果如下:(1)本文面向文档级情感分析任务提出了基于多粒度注意力机制的MAHG模型,使用双向门控循环单元建立层级结构来捕获远距离上下文语义表达,构建了跨层连接弥补深层次模型造成的信息损失,并提出了多粒度注意力机制获取更有效的上下文特征表示,从而能够更准确地识别情感。并在此基础上,研究了基于BERT的MAHG模型,使用BERT来生成文本嵌入信息,使得模型性能得到了进一步提升。实验结果表明,MAHG模型和BERT-MAHG模型都在文档级情感数据集上实现了良好的性能。(2)针对句子级情感分析任务,本文提出了轻量级的基于双通道的CSRDS模型,在实现模型性能提高的同时尽量保证训练效率。该模型分别部署了空间编码通道和时序编码通道从时间、空间两个维度对文本进行深层次建模,获取局部短语向量表征和全局上下文向量表征进行整合,并设计了双重肯定机制聚焦于显著特征。CSRDS模型构成了更全面的情感特征来解决句子级情感分析任务在多粒度层次上的文本稀疏性问题,并降低了计算复杂度。通过在四个公开的英文句子级情感数据集上与多个基线模型进行对比实验,验证了该模型性能的有效性以及训练效率的优越性。(3)不同于前面两种面向文本整体的情感分析,方面级情感分析任务旨在挖掘包含多个方面情感的句子中用户对不同方面的情感倾向。本文提出了基于信息流选择机制的RPISC方面级情感分析模型,有别于目前大多数基于长短时记忆网络等循环神经网络变体的方面级情感分析模型,该模型采用了多通道一维卷积神经网络作为核心架构,获取多尺度局部特征,此外还充分考虑方面信息并引入相对位置信息来捕获方面词及其对应情感观点词的关联信息,设计了信息流选择机制提取特定方面的情感特征。经过实验验证,与基线模型进行性能比较,该模型在方面级情感分析任务中有明显的优势。(4)本文针对方面级情感分析任务,还提出了基于三方互通注意力机制的TAMG情感分析模型。为了打破文本在既定的自然语言词序下难以连接方面词与对应情感观点词的局限,本文将句法信息引入模型,利用依存句法树来表示句子结构。然后构建图卷积网络在依存句法树上结合句法依赖关系更好地捕获远距离语义信息,还提出了三方互通注意力机制在方面、上下文隐层表示与节点特征表示这三者之间进行互相推理学习,更好地判断出对于特定方面的情感倾向较重要的信息。并通过广泛的实验,证明了该模型在多个方面级数据集上性能的提高。
其他文献
在今年的全国两会上,全国人大代表,南方电网广西电网公司董事长、党委书记揣小勇提出将数字电网建设作为“数字中国”建设重要行动项的建议,受到广泛关注。数字电网建设通过先进数字技术与能源生态深度融合,不断提高能源领域数字化、智能化、网络化、低碳化水平等一系列举措,开启电网“智慧”时代的新蓝海,是建设“数字中国”重要的基础性环节。近年来,
期刊
糖尿病性视网膜病变(DR)是糖尿病的高度特异性血管并发症,DR会导致眼睛出现异常,从而导致视力下降,严重会导致视网膜脱离而完全丧失视力。近年来,频域光学相干断层技术(SD-OCT)在成像速度、分辨率方面产生了根本性突破,它能清楚地显示十八层视网膜结构,且扫描速度快,能在短时间内采集数百幅高分辨率层析图像,对医学成像具有重要意义,已成为眼科医生诊断眼底疾病的重要工具。本文利用图像处理和分析的方法,对
随着软件行业的快速发展,软件成本管理作为软件工程重要的一环,越来越得到相关从业人员的重视。COCOMO Ⅱ模型作为理论研究最为广泛的软件成本估算模型,其成功得益于将影响软件成本的因素严格地隔离出来,表示为5个规模因子和17个成本驱动因子,每个因子分为四到六个等级。如何准确、科学地使用这些因子是一个值得长期探讨和发展的课题。随着机器学习的兴起和历史数据的沉淀,使得深入研究这些因子的定级过程成为可能。
高光谱图像是由空间维和光谱维组成的三维立体图像,拥有丰富的空间光谱信息,在精准农业、环境监测、军事侦察等许多领域都得到了广泛应用。高光谱图像分类技术是图像分析的关键技术,根据是否使用标签信息,可以分为有监督分类和无监督分类两种,其中无监督分类又称为聚类。高光谱图像的真实地物标签标注是像素级的,获取非常困难且价格昂贵,因此不需要使用人工标签的聚类,就得到了众多学者的关注和研究。由于高光谱图像具有高维
随着市场和用户对物流服务质量及配送时效要求的不断提高,A公司物流中心的作业效率也有了新的要求,针对物流中心传统的作业方式急需改进的问题,本论文研究并实现了A公司物流中的货位分配和路径优化的应用,从而提高了物流中心的作业效率和管理质量。论文阐述了A公司物流中心的运营情况,讨论了影响物流中心货位分配不合理和拣货路径的浪费的主要因素,分析了目前常用的货位分配策略和拣货路径优化策略,重点讨论了物流中心货位
随着各领域对软件需求的提高、信息处理量的剧增,使得软件系统的规模日益庞大、结构日趋复杂。如何有针对性地进行软件故障定位,快速、准确地检测到缺陷程序,提高软件程序的调试效率,仍然面临挑战。针对较大规模软件以及同一软件升级版本故障定位效率低、准确性不高等问题,本文以程序源码为研究对象,面向软件单故障定位和软件多故障定位两个不同场景,采用传统的机器学习技术和最近的深度学习技术作为解决方案的基本组成,开展
利用常规气象观测资料、1°×1°NCEP再分析资料、FY-2G静止卫星及郑州和洛阳CIN-RAD/SA雷达资料,结合探空和地面逐小时区域自动站资料,对“7·20”郑州特大暴雨的环流背景、卫星云图、双偏振雷达特征进行了分析。结果表明:中低层低涡、切变线和200hPa强辐散的叠置,为郑州“7·20”特大暴雨提供了强劲的动力条件;副热带高压偏强偏北,致台风“烟花”和“查帕卡”外围的东南和偏东急流持续向郑
现代雷达所处的工作环境比较复杂,由于周边目标的存在以及电磁干扰等原因,欠定问题和信号相干问题是当前阵列雷达系统进行DOA(Direction of Arrival)估计时所面临的两大难题。然而当前已有的解决这两类问题的算法大多是基于线阵提出的,并不适用于均匀圆阵。均匀圆阵相比于线阵拥有更好的角度估计性能且能同时估计俯仰角和水平角。基于此,本文基于LFMCW(Linear Frequency Mod
随着网联化技术不断发展,车联网网络安全问题逐渐暴露出来,对于车联网安全研究也在不断深入。入侵检测技术作为一种主动安全防护手段被应用到车联网当中,传统入侵检测技术并不适用复杂多维的车联网环境,现有的车联网安全研究工作更多注重车辆安全和功能安全,缺少入侵检测研究但更多的实例证明入侵行为在不断发生和增加,研究适合车联网的入侵检测技术十分必要。因此,本文针对车联网数据复杂多维条件对车联网数据进行特征处理并
文本事件抽取的目标是检测文本中的事件实例,如果存在,则标识事件类型及其所有论元和属性。近年来,虽然文本事件抽取方法研究得到了很大的关注,但是相对于实体抽取和关系抽取而言,现有的方法仍然存在模型复杂和抽取精度低的问题。本文考虑从特征编码和模型结构出发,采用流水线式方法,引入深度预训练语言模型,图卷积网络和注意力机制等,改进现有的文本事件抽取模型。主要研究工作如下:1.针对传统上下文无关词向量未考虑句