【摘 要】
:
随着移动互联网时代的到来,社交媒体在世界范围内逐渐风靡,其影响力也不断扩大。对于社交媒体语料的细粒度情感分析逐渐成为了学界新兴的研究热点之一。然而,社交媒体语料相较于传统的单文本在特征上有明显区别,一是由于社交媒体的非正式性,用户发表的文本内容可能存在大量的缩写、语病和错字等,二是社交媒体语料不再是单一的文本形式,往往伴随着图片。因此,本文基于社交媒体语料进行细粒度情感分析研究,不仅具有重要的学术
论文部分内容阅读
随着移动互联网时代的到来,社交媒体在世界范围内逐渐风靡,其影响力也不断扩大。对于社交媒体语料的细粒度情感分析逐渐成为了学界新兴的研究热点之一。然而,社交媒体语料相较于传统的单文本在特征上有明显区别,一是由于社交媒体的非正式性,用户发表的文本内容可能存在大量的缩写、语病和错字等,二是社交媒体语料不再是单一的文本形式,往往伴随着图片。因此,本文基于社交媒体语料进行细粒度情感分析研究,不仅具有重要的学术价值,也能够帮助平台挖掘群众对于大事的舆论倾向,同样具有巨大的应用价值。本文主要面向细粒度情感分析(Aspect-Based Sentiment Analysis)中的两个关键子任务展开研究:1)面向社交媒体多模态语料的评价对象抽取任务(Aspect Term Extraction,ATE),该任务的目标为识别出给定的<文本-图片>语料对中所涉及的有效评价对象;2)面向社交媒体多模态语料的评价对象情感分类任务(Aspect Term Polarity,ATP),该任务的目标为针对语料中出现的评价对象,判断其情感极性。具体来说,本文的研究内容包括以下三方面:首先,本文提出了一种基于区域感知对齐网络的多模态评价对象抽取方法。该模型首先引入BERT预训练模型进行文本基于上下文的特征建模,采用字符级向量编码以缓解未登录词问题。对于图片,引入Faster-RCNN目标检测网络提取其前景物体特征作为图片特征。最后引入共同注意力网络将文本特征与图片特征进行交互后使用门控机制将两模态特征融合,再使用过滤门将图片中的噪声过滤,最终使用CRF模型学习输出标签规则并最终解码。其次,本文提出基于预训练模型的语法导向网络以端到端地解决社交媒体语料中的细粒度情感分析任务。该模型采用LXMERT预训练模型以对文本进行多模态融合编码,使用该模型特有的多模态输出以判断图片和文本之间的关系,并决定多模态融合的程度。此外,模型使用基于句法生成树的图注意力网络以加强模型中的语法关系。最终在使用CRF解码时抽取评价对象的同时判断其情感极性。最后,本文分别针对提出的两种模型进行了广泛的实验。本文使用F1-measure以综合判断模型的性能。实验结果表明,两个模型在其任务上都表现出了优异的性能,其中区域感知对齐网络在多模态评价对象抽取任务上较最优秀的基线模型性能提高了1.8个百分点,基于预训练模型的语法导向网络在多模态端到端细粒度情感分析任务上较最优秀的基线模型性能提高了2.6个百分点。两个模型分别进行了消融实验,实验结果证明了模型中各个模块的有效性。此外,本文分析了模型目前存在的缺陷,为下一步工作出了准备。
其他文献
随着互联网技术的迅猛发展,目前大多数应用软件都建立在一个庞大、繁杂、跨协议层的大型分布式集群中。这类分布式集群的技术、软件、配置通常会不断地演变,难以避免会发生故障。面对海量的监控数据和庞大的系统,IT(Information Technology)运维人员很难做出迅速、准确的运维决策来应对各种故障。近年来,智能运维(Artificial Intelligence for IT Operation
随着信息技术和多媒体技术的发展,视频会议在人们的生活中发挥越来越大的作用。多点控制单元是视频会议的核心,负责会议召集、音视频编解码和数据转发等核心功能。目前多点控制单元存在缺乏统一管理、内部操作复杂、自动化程度不高的弊端。针对多点控制单元维护管理现状,本文设计实现了一个以资源管理、监测告警和风险分析为主要功能模块的维护管理工具,完成了以下具体工作:(1)资源管理模块的设计与实现。该模块旨在对不同版
面向知识图谱的知识推理旨在推理出与查询和规则相关的隐含知识或依据路径,是近年来知识图谱研究的热点问题之一。知识推理在封闭域的知识查询、知识图谱补全、开放域的知识问答、语义检索等场景中具有重要的的应用价值。虽然知识推理已有大量的研究成果,但现有推理模型在长距离和复杂关系的推理中,由于推理链长度增加导致搜索空间过大以及关系复杂多样等因素的影响,知识推理仍然面临着推理精度不够高和推理性能不够好的挑战。针
随着无线通信技术与互联网技术的不断发展,基于位置服务(Location Based Service,LBS)的应用领域也逐渐从室外场景延伸到室内场景。室内场景随着多元化的产业升级变得愈加复杂,目前多技术融合应用是实现室内位置服务系统的发展趋势,主要涉及的技术包括室内定位和轨迹预测。传统的室内定位技术首先在室内部署位置已知的接入点设备,然后通过计算目标点与接入点之间的距离来实现,这种方法容易受环境影
云制造可按需提供各种制造服务,任务和资源调度是提高制造服务质量的关键。本文考虑云制造环境下具有截止期约束和学习遗忘效应的工作流任务调度问题,以最小化总成本为优化目标。该问题的主要挑战有:1)由于较低的租赁成本通常会导致较长的工作流完工时间,可能违反截止期约束,而较短的工作流完工时间通常需要租赁较高价格的服务资源,导致较高的总成本,如何平衡工作流的完工时间和总成本是一个挑战。2)制造任务在分布式制造
加密货币近年来吸引了众多投资机构的注意。在这个新兴的资本市场中,投资机构扮演了什么角色,对加密货币的市场表现有何影响值得深入分析。本文基于网络分析方法和监督学习技术对ERC-20代币的投资机构及相关市场数据进行研究,进而分析投资机构对ERC-20代币一级市场和二级市场表现的影响。对于一级市场,本文以ICO成功(上市满一年)和ICO失败(从未上市)衡量代币的市场表现,同时以上市首日交易量、上市首日收
近年来,开源已成为工业界高质量高效率开发核心软件的重要手段。而随着开源软件社区和开发平台的快速发展,可用的开源软件项目数量迅速增加。在共同的开发平台和环境中,开源软件项目相互联系,共同演化,形成软件生态系统。如今,软件生态系统已经成为构建大型软件系统的有效方法,受到了学术界和工业界的广泛关注,而GitHub作为全球最大的开源软件社区,成为了研究软件生态系统的绝佳对象。其中有大量的开源软件项目无法继
经验回放(Experience Replay,ER)是深度强化学习(Deep Reinforcement Learning,DRL)的重要组成部分,通过重复采样学习保留在经验池中的经验,优化目标策略。目前,经验回放存在两个问题:1)经验保留使用全保留或先进先出的经验池,需要与环境交互产生大量样本,导致深度强化学习算法的学习速度较慢,样本利用率有待提升;2)优先采样打破经验池中原本的分布,加大经验状
医患纠纷文书作为记录纠纷过程的宝贵资料,对后续的纠纷解决有着重要指导作用。在实际的纠纷调解过程中,如能根据具体的案情进行精准的类案推荐,则可以有效提升医患双方对责任和赔偿的认知,提高案件解决质量和效率。传统的类案推荐方案一般是通过专家确定类案的特征项及权重,将文书映射成固定维度的、稠密的特征向量,然后基于向量相似度计算来推荐类案。该方案非常依赖于专家对类案的判断和对类案特征的选择,而这不仅需要专业