文本情感分析中的属性提取方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Fukuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是当前自然语言处理领域中最活跃的研究方向之一。作为细粒度的分析方法,属性级情感分析可以从文本中挖掘出针对不同属性的倾向性,更好地反映情感的复杂特征。属性提取是属性级情感分析的基础工作。目前属性提取方法中属性词与上下文联系不够紧密,缺乏对全局信息的充分利用。另外,可用的数据集较少,每个数据集中包含的数据量规模较小。解决上述问题对于提升属性提取效果有积极作用。针对上述两个问题,本文以双重词嵌入模型为基础,融入了自注意力的思想,提出基于自注意力的双重词嵌入卷积神经网络的方法与基于同义词替换的文本增强方法。本文的工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持。论文的主要工作如下:(1)针对属性词与上下文联系不够紧密,缺乏对全局信息利用的问题,在双重词嵌入卷积神经网络(Double Embeddings and CNN-based,DE-CNN)模型的基础上,提出了一种基于自注意力的双重词嵌入卷积神经网络的方法。该方法通过引入自注意力机制和位置编码,将属性词和其他单词之间的路径长度变为1,加强属性词与其他单词之间的联系,捕获长距离依赖和更多的全局语义信息。利用属性词和意见词之间的依赖关系,根据单词间的相关程度增强属性词的特征表示,减弱非属性词的特征值,为后续卷积神经网络的学习提供更多有用的信息。实验结果显示,相较于DE-CNN,该模型在两个数据集上平均F1分数分别提高了0.52和1.74。(2)针对属性提取工作可用数据集较少的问题,在简单数据增强(Easy Data Augmentation,EDA)技术的基础上,提出基于同义词替换的文本增强方法。该方法结合属性提取任务标签与输入的各个单词严格对应的特点,改进了EDA中的同义词替换算法,加入数据的预处理,扩展数据集。实验测试了该方法扩展后的数据集,结果表明增强后的数据集有效地提升了各个模型属性提取的效果,基于自注意力的双重词嵌入卷积神经网络模型相较于原数据集平均F1分数值提高了0.62,部分模型相较于原数据集平均F1分数提高了1以上。结合基于同义词替换的文本增强方法和基于自注意力的双重词嵌入卷积神经网络方法进行属性提取,实验结果显示,相较于DE-CNN模型,在数据集上的平均F1分数提高了1.14,证明了上述两种方法的有效性和合理性。
其他文献
随着数字技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点,数据日益成为重要战略资源和新生产要素。党的十九届四中全会首次提出将数据作为生产要素参与分配。数据资源作为数据经济时代的重要生产要素,构建安全可信的数据要素市场,能够在充分释放数据红利,实现数据价值流转的同时,保障数据资源安全与数据主体的隐私保护需求,从而促进数字经济高效健康发展。联盟链作为区块链技术与实体经济的粘合剂,可以有
近年来,随着视频监控、短视频社交等领域的蓬勃发展,产生了海量的视频数据。视频目标分割算法的发展促进了视频内容理解技术的广泛应用,对于智能安防、视频存储和自动驾驶等任务具有重要意义。视频目标分割旨在将某些特定的、显著的目标从视频背景中分离出来,本质上是一种像素级分类任务。然而,由于视频内容的多样性和复杂性,使得视频中存在大量前景背景混淆、目标形态变化、目标尺度变化等诸多问题,给视频目标分割算法带来了
铁路建设是我国交通领域的重要范畴,随着铁路线路的大量开行及铁路运营里程的逐步增加,对铁路运行安全状态的监控显得越来越重要。目前,我国已经进行了铁路安全图像智能分析设备的铺设,这些系统主要采用人工图像判别方式,该判别方式任务量重、难以满足实时检测要求且容易产生漏报、误报现象。因此,开发基于人工智能的铁路图像监测及检测系统的需求也越来越迫切。本文基于国铁集团组织建设的动车组运行故障动态图像检测系统(T
当今,全球已步入万物互联和人工智能时代,随着智能识别技术的发展和普及,人们在获得便利的同时隐私安全正遭受着潜在的威胁。在视频监控和社交网络的大范围覆盖下,人脸数据成为最容易获取的生物特征隐私信息。因此,在大数据时代下,人脸数据的隐私问题值得人们深思,如何在隐匿人脸身份信息的同时保留人脸属性信息具有重要的研究价值和意义。本文学习了现有的人脸数据隐私保护方法,受监督学习和生成对抗网络的启发,提出了一种
随着我国铁路事业的快速发展,行车安全成为亟待解决的问题之一。其中,行人误闯是影响行车安全的重要因素。因此,及时检测是否有人员误闯列车运行线路可以保障行车安全。传统的行人检测方法难以实现高性能和实时性的检测任务。近年来,随着深度学习技术的快速发展,基于深度学习的目标检测算法取得了优异的成绩。因此,本文以优异的卷积神经网络为基础,结合嵌入式异构设备完成铁路场景下的行人检测,实现铁路安防的智能化。本文的
互联网的高速发展使得用户正在面临信息爆炸的问题。推荐系统通过提供个性化的商品推荐服务来辅助用户进行决策,从而减轻消费者因选择过多而产生的焦虑和困惑。基于评分矩阵的推荐算法可以根据用户的评分模式对用户和商品进行建模,但该类算法面临严重的数据稀疏性问题。而用户生成的评论文本可以反应用户的喜好和商品特征等语义信息,利用这些信息可以有效缓解数据的稀疏性问题,从而提高模型推荐的准确率。本文主要基于深度学习技
行人属性识别是视频监控领域中的重要任务,因其在视频监控应用中的巨大潜力在近些年来受到了广泛关注,它可以应用于很多下游任务中,例如行人追踪,人脸验证,行人检索等。行人属性识别任务属于计算机视觉领域中的多标签图像分类任务。多标签图像分类任务的研究重点在于如何利用标签之间的共现关系辅助模型提升分类性能。目前最先进的共现关系建模方法是图神经网络,但它存在两个严重影响性能的问题:1)低频标签无法有效的从高频
脑血管病具有高发病率、高致残率、高死亡率的特点,且患者的经济负担较高,受到了社会的广泛关注。近年来,关于脑血管病的研究已取得一定的成果,但是目前我国卒中终身风险仍居世界最高为39.3%,其中男性卒中终身风险更高达41.1%,我国卒中防治工作仍面临巨大挑战。随着医疗信息化的发展,医院积累了大量的电子病历,为数据挖掘以及数据分析提供了数据基础。同时大数据技术的发展,为处理医疗数据提供了良好的技术手段,
近年来,我国城市轨道交通高速发展,其中隧道总里程位于世界第一。由于施工、温度、载荷等各种因素的影响,地铁隧道表面会有病害发生,其中,隧道表面裂缝是最常见的病害之一,给地铁的安全运营带来威胁,因此,裂缝检测是地铁周期性巡检的重要任务。目前,针对地铁隧道衬砌裂缝的检测仍然以人工巡检为主,本文设计了一种基于多目相机的隧道衬砌图像同步采集系统,可以在天窗时间内快速采集高质量的隧道衬砌图像,同时提出了一套基
随着近年来自助游市场的迅速发展,更多的出游者不仅是网络旅游资讯的信息接收者,同时也是网络信息的生产者和传播者。UGC(User Generate Content,用户生成内容)指的便是用户在网络上发表的文字、图片或视频等一系列信息资源。本项目的选题来自作者在某旅行APP公司所参与的实际项目,基于以上背景,公司在现有市场的基础上开始向社交领域发展,致力于打造旅行+社交的出游模式。本文的旅行APP后端